FML-bench: Un Benchmark per Agenti di Ricerca Automatica nel Machine Learning che Sottolinea l'Importanza dell'Ampiezza dell'Esplorazione
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
Autori: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno suscitato un crescente interesse verso gli agenti di ricerca automatica nel campo del machine learning. Tra questi, gli agenti in grado di proporre idee e condurre esperimenti di machine learning in modo autonomo sono particolarmente promettenti, poiché massimizzano l'automazione della ricerca e accelerano il progresso scientifico attraverso il perfezionamento iterativo delle idee basato sui risultati sperimentali. Tuttavia, valutare in modo completo tali agenti rimane una sfida. I benchmark esistenti tendono a enfatizzare eccessivamente gli aspetti ingegneristici trascurando il rigore accademico, creando barriere che oscurano una valutazione chiara delle capacità scientifiche di un agente nella ricerca sul machine learning. Inoltre, soffrono di una limitata diversità dei compiti, un'enfasi eccessiva su attività orientate all'applicazione rispetto ai problemi di ricerca fondamentali e una scalabilità limitata a contesti di ricerca realistici. Per affrontare queste limitazioni, introduciamo FML-bench, un benchmark progettato per valutare gli agenti di ricerca automatica su 8 problemi di ricerca fondamentali e diversificati nel machine learning. Riduce il carico di codifica, enfatizza i problemi fondamentali piuttosto che casi d'uso specifici, offre un'elevata diversità di compiti ed è estendibile ai repository GitHub di machine learning del mondo reale. Inoltre, presentiamo un framework di valutazione unificato con cinque metriche complementari, progettato per valutare in modo completo le prestazioni degli agenti sul nostro benchmark. Valutiamo gli agenti di ricerca automatica all'avanguardia su FML-bench e scopriamo che gli agenti che adottano strategie di esplorazione ampia superano quelli che si concentrano su un'esplorazione ristretta ma approfondita. Questi risultati suggeriscono che enfatizzare l'ampiezza dell'esplorazione può portare a risultati di ricerca più efficaci rispetto al concentrarsi esclusivamente su un perfezionamento incrementale. Il nostro benchmark è disponibile all'indirizzo https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.