FML-bench: Un punto de referencia para agentes de investigación en aprendizaje automático automático que destaca la importancia de la amplitud de exploración
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
Autores: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han despertado un creciente interés en los agentes de investigación de aprendizaje automático automático. Entre ellos, los agentes capaces de proponer ideas de manera autónoma y llevar a cabo experimentos de aprendizaje automático son particularmente prometedores, ya que maximizan la automatización de la investigación y aceleran el progreso científico al refinar iterativamente las ideas basándose en los resultados experimentales. Sin embargo, evaluar de manera integral a estos agentes sigue siendo un desafío. Los puntos de referencia existentes tienden a sobreenfatizar aspectos de ingeniería mientras descuidan el rigor académico, creando barreras que dificultan una evaluación clara de las capacidades científicas de un agente en la investigación de aprendizaje automático. Además, adolecen de una diversidad limitada de tareas, un énfasis excesivo en tareas orientadas a aplicaciones en lugar de problemas de investigación fundamentales, y una escalabilidad limitada a entornos de investigación realistas. Para abordar estas limitaciones, presentamos FML-bench, un punto de referencia diseñado para evaluar a los agentes de investigación de aprendizaje automático automático en 8 problemas diversos y fundamentales de investigación en aprendizaje automático. Este reduce la carga de codificación, enfatiza problemas fundamentales en lugar de casos de uso específicos, ofrece una alta diversidad de tareas y es extensible a repositorios de GitHub de aprendizaje automático del mundo real. Además, presentamos un marco de evaluación unificado con cinco métricas complementarias, diseñado para evaluar de manera integral el rendimiento de los agentes en nuestro punto de referencia. Evaluamos a los agentes de investigación automática más avanzados en FML-bench y encontramos que los agentes que emplean estrategias de exploración amplia superan a aquellos que se centran en una exploración estrecha pero profunda. Estos hallazgos sugieren que enfatizar la amplitud de la exploración puede conducir a resultados de investigación más efectivos que centrarse únicamente en el refinamiento incremental. Nuestro punto de referencia está disponible en https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.