MLR-Bench: Het evalueren van AI-agents in open-eindig machine learning onderzoek
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
Auteurs: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
Samenvatting
Recente ontwikkelingen in AI-agents hebben hun groeiende potentieel aangetoond om wetenschappelijke ontdekkingen aan te drijven en te ondersteunen. In dit werk introduceren we MLR-Bench, een uitgebreide benchmark voor het evalueren van AI-agents op open-ended machine learning-onderzoek. MLR-Bench omvat drie belangrijke componenten: (1) 201 onderzoeksopdrachten afkomstig van NeurIPS, ICLR en ICML workshops, die diverse ML-onderwerpen bestrijken; (2) MLR-Judge, een geautomatiseerd evaluatieraamwerk dat LLM-gebaseerde reviewers combineert met zorgvuldig ontworpen beoordelingscriteria om de onderzoekskwaliteit te beoordelen; en (3) MLR-Agent, een modulaire agentstructuur die in staat is onderzoeksopdrachten te voltooien via vier fasen: ideeën genereren, voorstel formuleren, experimenteren en paper schrijven. Ons raamwerk ondersteunt zowel stapsgewijze beoordeling over deze verschillende onderzoeksfasen, als end-to-end evaluatie van het uiteindelijke onderzoekspaper. Vervolgens gebruiken we MLR-Bench om zes frontier LLM's en een geavanceerde codeeragent te evalueren, waarbij we vaststellen dat hoewel LLM's effectief zijn in het genereren van samenhangende ideeën en goed gestructureerde papers, huidige codeeragents vaak (bijvoorbeeld in 80% van de gevallen) gefabriceerde of ongeldige experimentele resultaten produceren—wat een grote belemmering vormt voor wetenschappelijke betrouwbaarheid. We valideren MLR-Judge door middel van menselijke evaluatie, waarbij een hoge overeenstemming met expertreviewers wordt aangetoond, wat het potentieel ondersteunt als een schaalbaar hulpmiddel voor onderzoeksevaluatie. We maken MLR-Bench open-source om de gemeenschap te helpen bij het benchmarken, diagnosticeren en verbeteren van AI-onderzoeksagents in de richting van betrouwbare en transparante wetenschappelijke ontdekkingen.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.