FML-bench : Un benchmark pour les agents de recherche en apprentissage automatique automatique mettant en avant l'importance de l'étendue de l'exploration
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
papers.authors: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont suscité un intérêt croissant pour les agents de recherche en apprentissage automatique autonomes. Parmi eux, les agents capables de proposer des idées et de mener des expériences en apprentissage automatique de manière autonome sont particulièrement prometteurs, car ils maximisent l'automatisation de la recherche et accélèrent le progrès scientifique en affinant itérativement les idées sur la base des résultats expérimentaux. Cependant, l'évaluation complète de tels agents reste un défi. Les benchmarks existants ont tendance à survaloriser les aspects techniques tout en négligeant la rigueur académique, créant des obstacles qui brouillent une évaluation claire des capacités scientifiques d'un agent dans la recherche en apprentissage automatique. Ils souffrent également d'une diversité limitée des tâches, d'une survalorisation des tâches orientées application par rapport aux problèmes de recherche fondamentaux, et d'une extensibilité limitée aux contextes de recherche réalistes. Pour répondre à ces limitations, nous introduisons FML-bench, un benchmark conçu pour évaluer les agents de recherche en apprentissage automatique autonomes sur 8 problèmes de recherche en apprentissage automatique divers et fondamentaux. Il réduit la charge de codage, met l'accent sur les problèmes fondamentaux plutôt que sur des cas d'utilisation spécifiques, offre une grande diversité de tâches, et est extensible aux dépôts GitHub d'apprentissage automatique du monde réel. De plus, nous présentons un cadre d'évaluation unifié avec cinq métriques complémentaires, conçu pour évaluer de manière exhaustive la performance des agents sur notre benchmark. Nous évaluons les agents de recherche autonomes de pointe sur FML-bench, et constatons que les agents employant des stratégies d'exploration de recherche large surpassent ceux se concentrant sur une exploration étroite mais approfondie. Ces résultats suggèrent que mettre l'accent sur l'étendue de l'exploration peut conduire à des résultats de recherche plus efficaces que de se concentrer uniquement sur un affinement incrémental. Notre benchmark est disponible à l'adresse https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.