FML-bench: Ein Benchmark für automatische ML-Forschungsagenten, der die Bedeutung der Explorationsbreite hervorhebt
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
papers.authors: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben ein zunehmendes Interesse an automatischen maschinellen Lernforschungssystemen geweckt. Besonders vielversprechend sind dabei Systeme, die in der Lage sind, eigenständig Ideen vorzuschlagen und maschinelle Lern-Experimente durchzuführen, da sie die Automatisierung der Forschung maximieren und den wissenschaftlichen Fortschritt durch iterative Verfeinerung von Ideen basierend auf experimentellen Ergebnissen beschleunigen. Die umfassende Bewertung solcher Systeme bleibt jedoch eine Herausforderung. Bestehende Benchmarks neigen dazu, technische Aspekte zu überbetonen, während sie akademische Strenge vernachlässigen, wodurch Hindernisse entstehen, die eine klare Bewertung der wissenschaftlichen Fähigkeiten eines Systems in der maschinellen Lernforschung erschweren. Zudem leiden sie unter begrenzter Aufgabenvielfalt, einer Überbetonung anwendungsorientierter Aufgaben gegenüber grundlegenden Forschungsproblemen und begrenzter Skalierbarkeit auf realistische Forschungsszenarien. Um diese Einschränkungen zu überwinden, stellen wir FML-bench vor, einen Benchmark, der entwickelt wurde, um automatische maschinelle Lernforschungssysteme anhand von 8 vielfältigen und grundlegenden maschinellen Lernforschungsproblemen zu bewerten. Er reduziert den Programmieraufwand, betont grundlegende Probleme anstatt spezifischer Anwendungsfälle, bietet eine hohe Aufgabenvielfalt und ist erweiterbar auf reale maschinelle Lern-GitHub-Repositories. Darüber hinaus präsentieren wir ein einheitliches Bewertungsframework mit fünf komplementären Metriken, das darauf abzielt, die Leistung der Systeme in unserem Benchmark umfassend zu bewerten. Wir evaluieren state-of-the-art automatische Forschungssysteme auf FML-bench und stellen fest, dass Systeme, die breite Forschungsexplorationsstrategien verwenden, jene übertreffen, die sich auf eng gefasste, aber tiefgehende Exploration konzentrieren. Diese Ergebnisse deuten darauf hin, dass die Betonung der Breite der Exploration zu effektiveren Forschungsergebnissen führen kann als die alleinige Konzentration auf inkrementelle Verfeinerung. Unser Benchmark ist verfügbar unter https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.