MLR-Bench: Avaliando Agentes de IA em Pesquisa Aberta de Aprendizado de Máquina
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
Autores: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
Resumo
Os avanços recentes em agentes de IA têm demonstrado seu crescente potencial para impulsionar e apoiar a descoberta científica. Neste trabalho, apresentamos o MLR-Bench, um benchmark abrangente para avaliar agentes de IA em pesquisas de aprendizado de máquina de natureza aberta. O MLR-Bench inclui três componentes principais: (1) 201 tarefas de pesquisa extraídas de workshops da NeurIPS, ICLR e ICML, abrangendo diversos tópicos de ML; (2) MLR-Judge, um framework de avaliação automatizada que combina revisores baseados em LLMs com rubricas de revisão cuidadosamente projetadas para avaliar a qualidade da pesquisa; e (3) MLR-Agent, um scaffold modular de agente capaz de completar tarefas de pesquisa em quatro estágios: geração de ideias, formulação de propostas, experimentação e redação de artigos. Nosso framework suporta tanto a avaliação passo a passo desses estágios distintos de pesquisa quanto a avaliação end-to-end do artigo de pesquisa final. Em seguida, utilizamos o MLR-Bench para avaliar seis LLMs de ponta e um agente de codificação avançado, descobrindo que, embora os LLMs sejam eficazes na geração de ideias coerentes e artigos bem estruturados, os agentes de codificação atuais frequentemente (por exemplo, em 80% dos casos) produzem resultados experimentais fabricados ou inválidos—o que representa uma grande barreira para a confiabilidade científica. Validamos o MLR-Judge por meio de avaliação humana, mostrando alta concordância com revisores especialistas, apoiando seu potencial como uma ferramenta escalável para avaliação de pesquisa. Disponibilizamos o MLR-Bench como código aberto para ajudar a comunidade a avaliar, diagnosticar e melhorar agentes de pesquisa de IA em direção a uma descoberta científica confiável e transparente.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.