MLR-Bench: Valutazione di Agenti AI nella Ricerca Open-Ended sul Machine Learning
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
Autori: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
Abstract
I recenti progressi negli agenti di intelligenza artificiale hanno dimostrato il loro crescente potenziale nel guidare e supportare la scoperta scientifica. In questo lavoro, presentiamo MLR-Bench, un benchmark completo per valutare gli agenti di IA nella ricerca aperta sul machine learning. MLR-Bench include tre componenti chiave: (1) 201 task di ricerca provenienti da workshop di NeurIPS, ICLR e ICML che coprono una vasta gamma di argomenti di ML; (2) MLR-Judge, un framework di valutazione automatizzato che combina revisori basati su LLM con rubriche di revisione progettate con cura per valutare la qualità della ricerca; e (3) MLR-Agent, un'impalcatura modulare per agenti in grado di completare task di ricerca attraverso quattro fasi: generazione di idee, formulazione di proposte, sperimentazione e scrittura di articoli. Il nostro framework supporta sia la valutazione graduale attraverso queste distinte fasi di ricerca, sia la valutazione end-to-end del documento di ricerca finale. Utilizziamo quindi MLR-Bench per valutare sei LLM all'avanguardia e un avanzato agente di codifica, riscontrando che, sebbene gli LLM siano efficaci nel generare idee coerenti e articoli ben strutturati, gli attuali agenti di codifica producono frequentemente (ad esempio, nell'80% dei casi) risultati sperimentali fabbricati o non validati, rappresentando un ostacolo significativo per l'affidabilità scientifica. Convalidiamo MLR-Judge attraverso una valutazione umana, mostrando un elevato accordo con revisori esperti, supportando il suo potenziale come strumento scalabile per la valutazione della ricerca. Rendiamo open-source MLR-Bench per aiutare la comunità a benchmarkare, diagnosticare e migliorare gli agenti di ricerca IA verso una scoperta scientifica affidabile e trasparente.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.