MLR-Bench: Evaluación de Agentes de IA en Investigación de Aprendizaje Automático de Carácter Abierto

Resumen

Los avances recientes en agentes de inteligencia artificial han demostrado su creciente potencial para impulsar y apoyar el descubrimiento científico. En este trabajo, presentamos MLR-Bench, un punto de referencia integral para evaluar agentes de IA en investigación de aprendizaje automático de código abierto. MLR-Bench incluye tres componentes clave: (1) 201 tareas de investigación extraídas de talleres de NeurIPS, ICLR e ICML que cubren diversos temas de aprendizaje automático; (2) MLR-Judge, un marco de evaluación automatizado que combina revisores basados en LLM con rúbricas de revisión cuidadosamente diseñadas para evaluar la calidad de la investigación; y (3) MLR-Agent, un andamiaje modular de agentes capaz de completar tareas de investigación a través de cuatro etapas: generación de ideas, formulación de propuestas, experimentación y redacción de artículos. Nuestro marco permite tanto la evaluación paso a paso en estas distintas etapas de investigación como la evaluación integral del artículo de investigación final. Luego, utilizamos MLR-Bench para evaluar seis LLMs de vanguardia y un agente de codificación avanzado, encontrando que, aunque los LLMs son efectivos para generar ideas coherentes y artículos bien estructurados, los agentes de codificación actuales frecuentemente (por ejemplo, en el 80% de los casos) producen resultados experimentales fabricados o no validados, lo que representa una barrera importante para la confiabilidad científica. Validamos MLR-Judge mediante evaluación humana, mostrando un alto acuerdo con revisores expertos, lo que respalda su potencial como una herramienta escalable para la evaluación de investigación. Hacemos público MLR-Bench para ayudar a la comunidad a evaluar, diagnosticar y mejorar los agentes de investigación de IA hacia un descubrimiento científico confiable y transparente.

English

Recent advancements in AI agents have demonstrated their growing potential to drive and support scientific discovery. In this work, we introduce MLR-Bench, a comprehensive benchmark for evaluating AI agents on open-ended machine learning research. MLR-Bench includes three key components: (1) 201 research tasks sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2) MLR-Judge, an automated evaluation framework combining LLM-based reviewers with carefully designed review rubrics to assess research quality; and (3) MLR-Agent, a modular agent scaffold capable of completing research tasks through four stages: idea generation, proposal formulation, experimentation, and paper writing. Our framework supports both stepwise assessment across these distinct research stages, and end-to-end evaluation of the final research paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced coding agent, finding that while LLMs are effective at generating coherent ideas and well-structured papers, current coding agents frequently (e.g., in 80% of the cases) produce fabricated or invalidated experimental results--posing a major barrier to scientific reliability. We validate MLR-Judge through human evaluation, showing high agreement with expert reviewers, supporting its potential as a scalable tool for research evaluation. We open-source MLR-Bench to help the community benchmark, diagnose, and improve AI research agents toward trustworthy and transparent scientific discovery.

MLR-Bench: Evaluación de Agentes de IA en Investigación de Aprendizaje Automático de Carácter Abierto

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

Resumen

Support