MLR-Bench: Оценка ИИ-агентов в открытых исследованиях машинного обучения

Аннотация

Последние достижения в области ИИ-агентов продемонстрировали их растущий потенциал для стимулирования и поддержки научных открытий. В данной работе мы представляем MLR-Bench — комплексный бенчмарк для оценки ИИ-агентов в открытых исследованиях машинного обучения. MLR-Bench включает три ключевых компонента: (1) 201 исследовательскую задачу, взятых из семинаров NeurIPS, ICLR и ICML, охватывающих разнообразные темы машинного обучения; (2) MLR-Judge — автоматизированную систему оценки, объединяющую рецензентов на основе больших языковых моделей (LLM) с тщательно разработанными критериями для оценки качества исследований; и (3) MLR-Agent — модульный каркас агента, способного выполнять исследовательские задачи через четыре этапа: генерация идей, формулировка предложений, экспериментирование и написание статьи. Наша система поддерживает как поэтапную оценку на этих различных стадиях исследования, так и сквозную оценку итоговой научной работы. Мы используем MLR-Bench для оценки шести передовых LLM и продвинутого агента для написания кода, обнаруживая, что, хотя LLM эффективны в генерации связных идей и хорошо структурированных статей, современные агенты для написания кода часто (например, в 80% случаев) производят сфабрикованные или невалидированные экспериментальные результаты, что представляет собой серьезное препятствие для научной надежности. Мы проверяем MLR-Judge с помощью экспертной оценки, демонстрируя высокую согласованность с мнением экспертов, что подтверждает его потенциал как масштабируемого инструмента для оценки исследований. Мы открываем исходный код MLR-Bench, чтобы помочь сообществу тестировать, диагностировать и улучшать ИИ-агентов для исследований, способствуя надежному и прозрачному научному открытию.

English

Recent advancements in AI agents have demonstrated their growing potential to drive and support scientific discovery. In this work, we introduce MLR-Bench, a comprehensive benchmark for evaluating AI agents on open-ended machine learning research. MLR-Bench includes three key components: (1) 201 research tasks sourced from NeurIPS, ICLR, and ICML workshops covering diverse ML topics; (2) MLR-Judge, an automated evaluation framework combining LLM-based reviewers with carefully designed review rubrics to assess research quality; and (3) MLR-Agent, a modular agent scaffold capable of completing research tasks through four stages: idea generation, proposal formulation, experimentation, and paper writing. Our framework supports both stepwise assessment across these distinct research stages, and end-to-end evaluation of the final research paper. We then use MLR-Bench to evaluate six frontier LLMs and an advanced coding agent, finding that while LLMs are effective at generating coherent ideas and well-structured papers, current coding agents frequently (e.g., in 80% of the cases) produce fabricated or invalidated experimental results--posing a major barrier to scientific reliability. We validate MLR-Judge through human evaluation, showing high agreement with expert reviewers, supporting its potential as a scalable tool for research evaluation. We open-source MLR-Bench to help the community benchmark, diagnose, and improve AI research agents toward trustworthy and transparent scientific discovery.

MLR-Bench: Оценка ИИ-агентов в открытых исследованиях машинного обучения

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

Аннотация

Support