MLR-Bench: Evaluación de Agentes de IA en Investigación de Aprendizaje Automático de Carácter Abierto
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
Autores: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
Resumen
Los avances recientes en agentes de inteligencia artificial han demostrado su creciente potencial para impulsar y apoyar el descubrimiento científico. En este trabajo, presentamos MLR-Bench, un punto de referencia integral para evaluar agentes de IA en investigación de aprendizaje automático de código abierto. MLR-Bench incluye tres componentes clave: (1) 201 tareas de investigación extraídas de talleres de NeurIPS, ICLR e ICML que cubren diversos temas de aprendizaje automático; (2) MLR-Judge, un marco de evaluación automatizado que combina revisores basados en LLM con rúbricas de revisión cuidadosamente diseñadas para evaluar la calidad de la investigación; y (3) MLR-Agent, un andamiaje modular de agentes capaz de completar tareas de investigación a través de cuatro etapas: generación de ideas, formulación de propuestas, experimentación y redacción de artículos. Nuestro marco permite tanto la evaluación paso a paso en estas distintas etapas de investigación como la evaluación integral del artículo de investigación final. Luego, utilizamos MLR-Bench para evaluar seis LLMs de vanguardia y un agente de codificación avanzado, encontrando que, aunque los LLMs son efectivos para generar ideas coherentes y artículos bien estructurados, los agentes de codificación actuales frecuentemente (por ejemplo, en el 80% de los casos) producen resultados experimentales fabricados o no validados, lo que representa una barrera importante para la confiabilidad científica. Validamos MLR-Judge mediante evaluación humana, mostrando un alto acuerdo con revisores expertos, lo que respalda su potencial como una herramienta escalable para la evaluación de investigación. Hacemos público MLR-Bench para ayudar a la comunidad a evaluar, diagnosticar y mejorar los agentes de investigación de IA hacia un descubrimiento científico confiable y transparente.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.Summary
AI-Generated Summary