FML-bench: Un Benchmark per Agenti di Ricerca Automatica nel Machine Learning che Sottolinea l'Importanza dell'Ampiezza dell'Esplorazione

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno suscitato un crescente interesse verso gli agenti di ricerca automatica nel campo del machine learning. Tra questi, gli agenti in grado di proporre idee e condurre esperimenti di machine learning in modo autonomo sono particolarmente promettenti, poiché massimizzano l'automazione della ricerca e accelerano il progresso scientifico attraverso il perfezionamento iterativo delle idee basato sui risultati sperimentali. Tuttavia, valutare in modo completo tali agenti rimane una sfida. I benchmark esistenti tendono a enfatizzare eccessivamente gli aspetti ingegneristici trascurando il rigore accademico, creando barriere che oscurano una valutazione chiara delle capacità scientifiche di un agente nella ricerca sul machine learning. Inoltre, soffrono di una limitata diversità dei compiti, un'enfasi eccessiva su attività orientate all'applicazione rispetto ai problemi di ricerca fondamentali e una scalabilità limitata a contesti di ricerca realistici. Per affrontare queste limitazioni, introduciamo FML-bench, un benchmark progettato per valutare gli agenti di ricerca automatica su 8 problemi di ricerca fondamentali e diversificati nel machine learning. Riduce il carico di codifica, enfatizza i problemi fondamentali piuttosto che casi d'uso specifici, offre un'elevata diversità di compiti ed è estendibile ai repository GitHub di machine learning del mondo reale. Inoltre, presentiamo un framework di valutazione unificato con cinque metriche complementari, progettato per valutare in modo completo le prestazioni degli agenti sul nostro benchmark. Valutiamo gli agenti di ricerca automatica all'avanguardia su FML-bench e scopriamo che gli agenti che adottano strategie di esplorazione ampia superano quelli che si concentrano su un'esplorazione ristretta ma approfondita. Questi risultati suggeriscono che enfatizzare l'ampiezza dell'esplorazione può portare a risultati di ricerca più efficaci rispetto al concentrarsi esclusivamente su un perfezionamento incrementale. Il nostro benchmark è disponibile all'indirizzo https://github.com/qrzou/FML-bench.

English

Large language models (LLMs) have sparked growing interest in automatic machine learning research agents. Among them, agents capable of autonomously proposing ideas and conducting machine learning experiments are particularly promising, as they maximize research automation and accelerate scientific progress by iteratively refining ideas based on experimental results. However, comprehensively evaluating such agents remains challenging. Existing benchmarks tend to overemphasize engineering aspects while neglecting academic rigor, creating barriers that obscure a clear assessment of an agent's scientific capabilities in machine learning research. They also suffer from limited task diversity, an overemphasis on application-oriented tasks over fundamental research problems, and limited scalability to realistic research settings. To address these limitations, we introduce FML-bench, a benchmark designed to evaluate automatic machine learning research agents on 8 diverse and fundamental machine learning research problems. It reduces coding burden, emphasizes fundamental problems rather than specific use cases, offers high task diversity, and is extensible to real-world machine learning GitHub repositories. Furthermore, we present a unified evaluation framework with five complementary metrics, designed to comprehensively assess agent performance on our benchmark. We evaluate state-of-the-art automatic research agents on FML-bench, and find that agents employing broad research exploration strategies outperform those focusing on narrow but deep exploration. These findings suggest that emphasizing the breadth of exploration may lead to more effective research outcomes than focusing solely on incremental refinement. Our benchmark is available at https://github.com/qrzou/FML-bench.

FML-bench: Un Benchmark per Agenti di Ricerca Automatica nel Machine Learning che Sottolinea l'Importanza dell'Ampiezza dell'Esplorazione

FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

Abstract

Support