MLRC-Bench: ¿Pueden los agentes de lenguaje resolver los desafíos de investigación en aprendizaje automático?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
Autores: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Resumen
La evaluación existente de agentes de modelos de lenguaje de gran escala (LLM) en el descubrimiento científico carece de líneas de base y métricas objetivas para evaluar la viabilidad de sus métodos propuestos. Para abordar este problema, presentamos MLRC-Bench, un punto de referencia diseñado para cuantificar cuán efectivamente los agentes de lenguaje pueden abordar desafiantes Competencias de Investigación en Aprendizaje Automático (ML). Nuestro punto de referencia destaca problemas de investigación abiertos que exigen metodologías novedosas, en contraste con puntos de referencia recientes como MLE-Bench de OpenAI (Chan et al., 2024) y RE-Bench de METR (Wijk et al., 2024), que se centran en tareas de investigación bien establecidas que son en gran parte resolubles mediante suficiente esfuerzo de ingeniería. A diferencia de trabajos anteriores, por ejemplo, AI Scientist (Lu et al., 2024b), que evalúa la pipeline agentiva de extremo a extremo utilizando LLM-como-juez, MLRC-Bench mide los pasos clave de proponer e implementar métodos de investigación novedosos y los evalúa con un protocolo riguroso y métricas objetivas recién propuestas. Nuestra suite curada de 7 tareas de competencia revela desafíos significativos para los agentes LLM. Incluso el agente con mejor rendimiento probado (gemini-exp-1206 bajo MLAB (Huang et al., 2024a)) cierra solo el 9.3% de la brecha entre las puntuaciones de la línea de base y las del mejor participante humano. Además, nuestro análisis revela una desalineación entre la innovación juzgada por LLM y su rendimiento real en problemas de investigación de vanguardia en ML. MLRC-Bench es un punto de referencia dinámico, diseñado para crecer continuamente con nuevas competencias de ML para fomentar evaluaciones rigurosas y objetivas de las capacidades de investigación de la IA.
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.Summary
AI-Generated Summary