FML-bench: Um Benchmark para Agentes de Pesquisa em ML Automatizada Destacando a Importância da Amplitude de Exploração
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
Autores: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm despertado um interesse crescente em agentes de pesquisa de aprendizado de máquina automáticos. Entre eles, os agentes capazes de propor ideias e conduzir experimentos de aprendizado de máquina de forma autônoma são particularmente promissores, pois maximizam a automação da pesquisa e aceleram o progresso científico ao refinar iterativamente ideias com base nos resultados experimentais. No entanto, avaliar de forma abrangente esses agentes continua sendo um desafio. Os benchmarks existentes tendem a supervalorizar aspectos de engenharia enquanto negligenciam o rigor acadêmico, criando barreiras que obscurecem uma avaliação clara das capacidades científicas de um agente na pesquisa de aprendizado de máquina. Eles também sofrem com diversidade limitada de tarefas, uma supervalorização de tarefas orientadas para aplicações em detrimento de problemas de pesquisa fundamentais, e escalabilidade limitada para cenários de pesquisa realistas. Para abordar essas limitações, introduzimos o FML-bench, um benchmark projetado para avaliar agentes de pesquisa de aprendizado de máquina automáticos em 8 problemas diversos e fundamentais de pesquisa em aprendizado de máquina. Ele reduz a carga de codificação, enfatiza problemas fundamentais em vez de casos de uso específicos, oferece alta diversidade de tarefas e é extensível a repositórios GitHub de aprendizado de máquina do mundo real. Além disso, apresentamos um framework de avaliação unificado com cinco métricas complementares, projetado para avaliar de forma abrangente o desempenho dos agentes em nosso benchmark. Avaliamos os agentes de pesquisa automática mais avançados no FML-bench e descobrimos que os agentes que empregam estratégias amplas de exploração de pesquisa superam aqueles que se concentram em uma exploração estreita, mas profunda. Essas descobertas sugerem que enfatizar a amplitude da exploração pode levar a resultados de pesquisa mais eficazes do que focar apenas em refinamentos incrementais. Nosso benchmark está disponível em https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.