MLR-Bench : Évaluation des agents d'IA dans la recherche ouverte en apprentissage automatique
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
Auteurs: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
Résumé
Les récentes avancées dans les agents d'IA ont démontré leur potentiel croissant à stimuler et à soutenir la découverte scientifique. Dans ce travail, nous présentons MLR-Bench, un benchmark complet pour évaluer les agents d'IA dans le cadre de la recherche ouverte en apprentissage automatique. MLR-Bench comprend trois composants clés : (1) 201 tâches de recherche issues des ateliers de NeurIPS, ICLR et ICML, couvrant divers sujets en ML ; (2) MLR-Judge, un cadre d'évaluation automatisé combinant des évaluateurs basés sur des LLM avec des grilles de révision soigneusement conçues pour évaluer la qualité de la recherche ; et (3) MLR-Agent, une structure modulaire d'agent capable de réaliser des tâches de recherche à travers quatre étapes : génération d'idées, formulation de propositions, expérimentation et rédaction d'articles. Notre cadre prend en charge à la fois l'évaluation étape par étape de ces différentes phases de recherche et l'évaluation globale du document de recherche final. Nous utilisons ensuite MLR-Bench pour évaluer six LLM de pointe et un agent de codage avancé, constatant que si les LLM sont efficaces pour générer des idées cohérentes et des articles bien structurés, les agents de codage actuels produisent fréquemment (par exemple, dans 80 % des cas) des résultats expérimentaux fabriqués ou non validés—ce qui constitue un obstacle majeur à la fiabilité scientifique. Nous validons MLR-Judge par une évaluation humaine, montrant un fort accord avec les évaluateurs experts, soutenant son potentiel en tant qu'outil évolutif pour l'évaluation de la recherche. Nous rendons MLR-Bench open-source pour aider la communauté à évaluer, diagnostiquer et améliorer les agents de recherche en IA afin de favoriser une découverte scientifique fiable et transparente.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.Summary
AI-Generated Summary