MLR-Bench: オープンエンドな機械学習研究におけるAIエージェントの評価
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
著者: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
要旨
近年のAIエージェントの進歩は、科学的発見を推進し支援する可能性が高まっていることを示しています。本研究では、オープンエンドの機械学習研究においてAIエージェントを評価するための包括的なベンチマークであるMLR-Benchを紹介します。MLR-Benchは以下の3つの主要なコンポーネントで構成されています:(1) NeurIPS、ICLR、ICMLのワークショップから収集した多様なMLトピックをカバーする201の研究タスク、(2) LLMベースのレビュアーと慎重に設計された評価基準を組み合わせた自動評価フレームワークであるMLR-Judge、(3) アイデア生成、提案策定、実験、論文執筆という4つの段階を通じて研究タスクを完了可能なモジュール型エージェントの足場であるMLR-Agentです。本フレームワークは、これらの異なる研究段階にわたる段階的評価と、最終的な研究論文のエンドツーエンド評価の両方をサポートします。次に、MLR-Benchを使用して6つの最先端LLMと高度なコーディングエージェントを評価し、LLMは首尾一貫したアイデアの生成と構造化された論文の作成に効果的である一方、現在のコーディングエージェントは頻繁に(例えば80%のケースで)捏造または無効な実験結果を生成することを発見しました。これは科学的信頼性に対する大きな障壁となっています。MLR-Judgeは人間による評価を通じて検証し、専門家レビュアーとの高い一致を示し、研究評価のスケーラブルなツールとしての可能性を支持します。我々はMLR-Benchをオープンソース化し、コミュニティが信頼性と透明性のある科学的発見に向けてAI研究エージェントをベンチマークし、診断し、改善することを支援します。
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.Summary
AI-Generated Summary