MLRC-Bench: Способны ли языковые агенты решать задачи исследований в области машинного обучения?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
Авторы: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Аннотация
Существующие подходы к оценке агентов на основе больших языковых моделей (LLM) в области научных открытий страдают от отсутствия объективных базовых показателей и метрик для оценки жизнеспособности предлагаемых методов. Чтобы решить эту проблему, мы представляем MLRC-Bench — эталонный тест, предназначенный для количественной оценки того, насколько эффективно языковые агенты могут справляться со сложными соревнованиями в области машинного обучения (ML). Наш эталонный тест акцентирует внимание на открытых исследовательских проблемах, требующих новых методологий, в отличие от недавних тестов, таких как MLE-Bench от OpenAI (Chan et al., 2024) и RE-Bench от METR (Wijk et al., 2024), которые сосредоточены на хорошо изученных задачах, в основном решаемых за счет инженерных усилий. В отличие от предыдущих работ, например, AI Scientist (Lu et al., 2024b), которые оценивают сквозной агентский конвейер с использованием LLM в качестве судьи, MLRC-Bench измеряет ключевые этапы предложения и реализации новых исследовательских методов и оценивает их с помощью нового строгого протокола и объективных метрик. Наш тщательно отобранный набор из 7 соревновательных задач выявляет значительные трудности для агентов на основе LLM. Даже лучший из протестированных агентов (gemini-exp-1206 под MLAB (Huang et al., 2024a)) закрывает лишь 9,3% разрыва между базовыми показателями и результатами лучших участников-людей. Более того, наш анализ выявляет несоответствие между инновационностью, оцененной LLM, и их фактической производительностью на передовых задачах ML-исследований. MLRC-Bench — это динамический эталонный тест, который разработан для постоянного расширения за счет новых соревнований в области ML, чтобы стимулировать строгую и объективную оценку исследовательских возможностей ИИ.
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.Summary
AI-Generated Summary