ChatPaper.aiChatPaper

MLRC-Bench: Agentes de Linguagem Podem Resolver Desafios de Pesquisa em Aprendizado de Máquina?

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

April 13, 2025
Autores: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI

Resumo

A avaliação existente de agentes de modelos de linguagem de grande escala (LLM) na descoberta científica carece de bases de comparação objetivas e métricas para avaliar a viabilidade dos métodos propostos. Para resolver essa questão, introduzimos o MLRC-Bench, um benchmark projetado para quantificar quão efetivamente agentes de linguagem podem enfrentar desafios competitivos em Pesquisa de Aprendizado de Máquina (ML). Nosso benchmark destaca problemas de pesquisa abertos que exigem metodologias inovadoras, em contraste com benchmarks recentes como o MLE-Bench da OpenAI (Chan et al., 2024) e o RE-Bench da METR (Wijk et al., 2024), que se concentram em tarefas de pesquisa bem estabelecidas e amplamente solucionáveis com esforço de engenharia suficiente. Diferente de trabalhos anteriores, como o AI Scientist (Lu et al., 2024b), que avalia o pipeline agentivo de ponta a ponta usando LLM como juiz, o MLRC-Bench mede as etapas-chave de proposição e implementação de métodos de pesquisa inovadores e os avalia com um protocolo rigoroso e métricas objetivas recém-propostas. Nossa suíte curada de 7 tarefas competitivas revela desafios significativos para agentes LLM. Mesmo o agente de melhor desempenho testado (gemini-exp-1206 sob MLAB (Huang et al., 2024a)) fecha apenas 9,3% da lacuna entre a linha de base e as pontuações dos melhores participantes humanos. Além disso, nossa análise revela uma desalinhamento entre a inovação julgada por LLMs e seu desempenho real em problemas de pesquisa de ML de ponta. O MLRC-Bench é um benchmark dinâmico, projetado para crescer continuamente com novas competições de ML, incentivando avaliações rigorosas e objetivas das capacidades de pesquisa da IA.
English
Existing evaluation of large language model (LLM) agents on scientific discovery lacks objective baselines and metrics to assess the viability of their proposed methods. To address this issue, we introduce MLRC-Bench, a benchmark designed to quantify how effectively language agents can tackle challenging Machine Learning (ML) Research Competitions. Our benchmark highlights open research problems that demand novel methodologies, in contrast to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's RE-Bench (Wijk et al., 2024), which focus on well-established research tasks that are largely solvable through sufficient engineering effort. Unlike prior work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of proposing and implementing novel research methods and evaluates them with newly proposed rigorous protocol and objective metrics. Our curated suite of 7 competition tasks reveals significant challenges for LLM agents. Even the best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a)) closes only 9.3% of the gap between baseline and top human participant scores. Furthermore, our analysis reveals a misalignment between the LLM-judged innovation and their actual performance on cutting-edge ML research problems. MLRC-Bench is a dynamic benchmark, which is designed to continually grow with new ML competitions to encourage rigorous and objective evaluations of AI's research capabilities.
PDF182April 17, 2025