MLR-Bench: Оценка ИИ-агентов в открытых исследованиях машинного обучения
MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research
May 26, 2025
Авторы: Hui Chen, Miao Xiong, Yujie Lu, Wei Han, Ailin Deng, Yufei He, Jiaying Wu, Yibo Li, Yue Liu, Bryan Hooi
cs.AI
Аннотация
Последние достижения в области ИИ-агентов продемонстрировали их растущий потенциал для стимулирования и поддержки научных открытий. В данной работе мы представляем MLR-Bench — комплексный бенчмарк для оценки ИИ-агентов в открытых исследованиях машинного обучения. MLR-Bench включает три ключевых компонента: (1) 201 исследовательскую задачу, взятых из семинаров NeurIPS, ICLR и ICML, охватывающих разнообразные темы машинного обучения; (2) MLR-Judge — автоматизированную систему оценки, объединяющую рецензентов на основе больших языковых моделей (LLM) с тщательно разработанными критериями для оценки качества исследований; и (3) MLR-Agent — модульный каркас агента, способного выполнять исследовательские задачи через четыре этапа: генерация идей, формулировка предложений, экспериментирование и написание статьи. Наша система поддерживает как поэтапную оценку на этих различных стадиях исследования, так и сквозную оценку итоговой научной работы. Мы используем MLR-Bench для оценки шести передовых LLM и продвинутого агента для написания кода, обнаруживая, что, хотя LLM эффективны в генерации связных идей и хорошо структурированных статей, современные агенты для написания кода часто (например, в 80% случаев) производят сфабрикованные или невалидированные экспериментальные результаты, что представляет собой серьезное препятствие для научной надежности. Мы проверяем MLR-Judge с помощью экспертной оценки, демонстрируя высокую согласованность с мнением экспертов, что подтверждает его потенциал как масштабируемого инструмента для оценки исследований. Мы открываем исходный код MLR-Bench, чтобы помочь сообществу тестировать, диагностировать и улучшать ИИ-агентов для исследований, способствуя надежному и прозрачному научному открытию.
English
Recent advancements in AI agents have demonstrated their growing potential to
drive and support scientific discovery. In this work, we introduce MLR-Bench, a
comprehensive benchmark for evaluating AI agents on open-ended machine learning
research. MLR-Bench includes three key components: (1) 201 research tasks
sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2)
MLR-Judge, an automated evaluation framework combining LLM-based reviewers with
carefully designed review rubrics to assess research quality; and (3)
MLR-Agent, a modular agent scaffold capable of completing research tasks
through four stages: idea generation, proposal formulation, experimentation,
and paper writing. Our framework supports both stepwise assessment across these
distinct research stages, and end-to-end evaluation of the final research
paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced
coding agent, finding that while LLMs are effective at generating coherent
ideas and well-structured papers, current coding agents frequently (e.g., in
80% of the cases) produce fabricated or invalidated experimental
results--posing a major barrier to scientific reliability. We validate
MLR-Judge through human evaluation, showing high agreement with expert
reviewers, supporting its potential as a scalable tool for research evaluation.
We open-source MLR-Bench to help the community benchmark, diagnose, and improve
AI research agents toward trustworthy and transparent scientific discovery.Summary
AI-Generated Summary