FML-bench: Een benchmark voor automatische ML-onderzoeksagenten die het belang van verkenningsbreedte benadrukt
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
Auteurs: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben een groeiende interesse gewekt in automatische machine learning-onderzoeksagenten. Onder hen zijn agenten die autonoom ideeën kunnen voorstellen en machine learning-experimenten kunnen uitvoeren bijzonder veelbelovend, omdat ze onderzoeksautomatisering maximaliseren en wetenschappelijke vooruitgang versnellen door ideeën iteratief te verfijnen op basis van experimentele resultaten. Het blijft echter een uitdaging om dergelijke agenten uitgebreid te evalueren. Bestaande benchmarks leggen vaak te veel nadruk op technische aspecten en verwaarlozen academische strengheid, wat barrières creëert die een duidelijke beoordeling van de wetenschappelijke capaciteiten van een agent in machine learning-onderzoek bemoeilijken. Daarnaast kampen ze met beperkte taakdiversiteit, een overmatige focus op toepassingsgerichte taken in plaats van fundamentele onderzoeksproblemen, en beperkte schaalbaarheid naar realistische onderzoeksomgevingen. Om deze beperkingen aan te pakken, introduceren we FML-bench, een benchmark die is ontworpen om automatische machine learning-onderzoeksagenten te evalueren op 8 diverse en fundamentele machine learning-onderzoeksproblemen. Het vermindert de programmeerlast, benadrukt fundamentele problemen in plaats van specifieke use cases, biedt hoge taakdiversiteit en is uitbreidbaar naar real-world machine learning GitHub-repositories. Bovendien presenteren we een uniform evaluatiekader met vijf complementaire metrieken, ontworpen om de prestaties van agenten op onze benchmark uitgebreid te beoordelen. We evalueren state-of-the-art automatische onderzoeksagenten op FML-bench en ontdekken dat agenten die brede onderzoeksverkenningstrategieën toepassen, beter presteren dan agenten die zich richten op smalle maar diepe verkenning. Deze bevindingen suggereren dat het benadrukken van de breedte van verkenning kan leiden tot effectievere onderzoeksresultaten dan uitsluitend focussen op incrementele verfijning. Onze benchmark is beschikbaar op https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.