ChatPaper.aiChatPaper

MLR-Bench: Bewertung von KI-Agenten in offener maschineller Lernforschung

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

May 26, 2025
Autoren: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI

Zusammenfassung

Jüngste Fortschritte bei KI-Agenten haben ihr wachsendes Potenzial gezeigt, wissenschaftliche Entdeckungen voranzutreiben und zu unterstützen. In dieser Arbeit stellen wir MLR-Bench vor, einen umfassenden Benchmark zur Bewertung von KI-Agenten in der offenen Forschung des maschinellen Lernens. MLR-Bench umfasst drei Schlüsselkomponenten: (1) 201 Forschungsaufgaben, die aus Workshops von NeurIPS, ICLR und ICML stammen und verschiedene ML-Themen abdecken; (2) MLR-Judge, ein automatisiertes Bewertungsframework, das LLM-basierte Gutachter mit sorgfältig gestalteten Bewertungskriterien kombiniert, um die Forschungsqualität zu beurteilen; und (3) MLR-Agent, ein modularer Agentenrahmen, der in der Lage ist, Forschungsaufgaben in vier Phasen zu bearbeiten: Ideengenerierung, Vorschlagsformulierung, Experimentierung und Artikelverfassung. Unser Framework unterstützt sowohl die schrittweise Bewertung über diese verschiedenen Forschungsphasen hinweg als auch die End-to-End-Bewertung des finalen Forschungsartikels. Anschließend verwenden wir MLR-Bench, um sechs fortschrittliche LLMs und einen fortgeschrittenen Code-Agenten zu bewerten. Dabei stellen wir fest, dass LLMs zwar effektiv kohärente Ideen und gut strukturierte Artikel generieren können, aktuelle Code-Agenten jedoch häufig (z. B. in 80 % der Fälle) fabrizierte oder nicht validierte experimentelle Ergebnisse liefern – was ein erhebliches Hindernis für die wissenschaftliche Zuverlässigkeit darstellt. Wir validieren MLR-Judge durch menschliche Bewertungen, die eine hohe Übereinstimmung mit Experten-Gutachtern zeigen, und unterstützen damit sein Potenzial als skalierbares Tool für die Forschungsbewertung. Wir stellen MLR-Bench als Open-Source zur Verfügung, um der Community zu helfen, KI-Forschungsagenten zu benchmarken, zu diagnostizieren und zu verbessern, hin zu vertrauenswürdiger und transparenter wissenschaftlicher Entdeckung.
English
Recent advancements in AI agents have demonstrated their growing potential to drive and support scientific discovery. In this work, we introduce MLR-Bench, a comprehensive benchmark for evaluating AI agents on open-ended machine learning research. MLR-Bench includes three key components: (1) 201 research tasks sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2) MLR-Judge, an automated evaluation framework combining LLM-based reviewers with carefully designed review rubrics to assess research quality; and (3) MLR-Agent, a modular agent scaffold capable of completing research tasks through four stages: idea generation, proposal formulation, experimentation, and paper writing. Our framework supports both stepwise assessment across these distinct research stages, and end-to-end evaluation of the final research paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced coding agent, finding that while LLMs are effective at generating coherent ideas and well-structured papers, current coding agents frequently (e.g., in 80% of the cases) produce fabricated or invalidated experimental results--posing a major barrier to scientific reliability. We validate MLR-Judge through human evaluation, showing high agreement with expert reviewers, supporting its potential as a scalable tool for research evaluation. We open-source MLR-Bench to help the community benchmark, diagnose, and improve AI research agents toward trustworthy and transparent scientific discovery.

Summary

AI-Generated Summary

PDF81May 27, 2025