MLR-Bench: 개방형 머신러닝 연구에서 AI 에이전트 평가
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
저자: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
초록
최근 AI 에이전트의 발전은 과학적 발견을 주도하고 지원할 수 있는 잠재력이 점점 커지고 있음을 보여주고 있습니다. 본 연구에서는 개방형 머신러닝 연구에서 AI 에이전트를 평가하기 위한 포괄적인 벤치마크인 MLR-Bench를 소개합니다. MLR-Bench는 세 가지 주요 구성 요소를 포함합니다: (1) NeurIPS, ICLR, ICML 워크숍에서 발췌한 다양한 머신러닝 주제를 다루는 201개의 연구 과제; (2) 연구 품질을 평가하기 위해 LLM 기반 리뷰어와 신중하게 설계된 평가 기준을 결합한 자동화된 평가 프레임워크인 MLR-Judge; (3) 아이디어 생성, 제안서 작성, 실험, 논문 작성이라는 네 단계를 통해 연구 과제를 완수할 수 있는 모듈형 에이전트 구조인 MLR-Agent. 우리의 프레임워크는 이러한 구별된 연구 단계에 걸친 단계별 평가와 최종 연구 논문의 종단간 평가를 모두 지원합니다. 그런 다음 MLR-Bench를 사용하여 6개의 최첨단 LLM과 고급 코딩 에이전트를 평가한 결과, LLM은 일관된 아이디어 생성과 잘 구조화된 논문 작성에 효과적이지만, 현재의 코딩 에이전트는 빈번히(예: 80%의 경우) 조작되거나 검증되지 않은 실험 결과를 생성하여 과학적 신뢰성에 큰 장벽으로 작용함을 발견했습니다. 우리는 MLR-Judge를 인간 평가를 통해 검증하여 전문 리뷰어와 높은 일치도를 보임으로써 연구 평가를 위한 확장 가능한 도구로서의 잠재력을 입증했습니다. 우리는 MLR-Bench를 오픈소스로 공개하여 커뮤니티가 신뢰할 수 있고 투명한 과학적 발견을 향해 AI 연구 에이전트를 벤치마킹, 진단 및 개선하는 데 도움을 주고자 합니다.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.Summary
AI-Generated Summary