MLRC-Bench: Agentes de Linguagem Podem Resolver Desafios de Pesquisa em Aprendizado de Máquina?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
Autores: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Resumo
A avaliação existente de agentes de modelos de linguagem de grande escala (LLM) na descoberta científica carece de bases de comparação objetivas e métricas para avaliar a viabilidade dos métodos propostos. Para resolver essa questão, introduzimos o MLRC-Bench, um benchmark projetado para quantificar quão efetivamente agentes de linguagem podem enfrentar desafios competitivos em Pesquisa de Aprendizado de Máquina (ML). Nosso benchmark destaca problemas de pesquisa abertos que exigem metodologias inovadoras, em contraste com benchmarks recentes como o MLE-Bench da OpenAI (Chan et al., 2024) e o RE-Bench da METR (Wijk et al., 2024), que se concentram em tarefas de pesquisa bem estabelecidas e amplamente solucionáveis com esforço de engenharia suficiente. Diferente de trabalhos anteriores, como o AI Scientist (Lu et al., 2024b), que avalia o pipeline agentivo de ponta a ponta usando LLM como juiz, o MLRC-Bench mede as etapas-chave de proposição e implementação de métodos de pesquisa inovadores e os avalia com um protocolo rigoroso e métricas objetivas recém-propostas. Nossa suíte curada de 7 tarefas competitivas revela desafios significativos para agentes LLM. Mesmo o agente de melhor desempenho testado (gemini-exp-1206 sob MLAB (Huang et al., 2024a)) fecha apenas 9,3% da lacuna entre a linha de base e as pontuações dos melhores participantes humanos. Além disso, nossa análise revela uma desalinhamento entre a inovação julgada por LLMs e seu desempenho real em problemas de pesquisa de ML de ponta. O MLRC-Bench é um benchmark dinâmico, projetado para crescer continuamente com novas competições de ML, incentivando avaliações rigorosas e objetivas das capacidades de pesquisa da IA.
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.