MLRC-Bench: Способны ли языковые агенты решать задачи исследований в области машинного обучения?

Аннотация

Существующие подходы к оценке агентов на основе больших языковых моделей (LLM) в области научных открытий страдают от отсутствия объективных базовых показателей и метрик для оценки жизнеспособности предлагаемых методов. Чтобы решить эту проблему, мы представляем MLRC-Bench — эталонный тест, предназначенный для количественной оценки того, насколько эффективно языковые агенты могут справляться со сложными соревнованиями в области машинного обучения (ML). Наш эталонный тест акцентирует внимание на открытых исследовательских проблемах, требующих новых методологий, в отличие от недавних тестов, таких как MLE-Bench от OpenAI (Chan et al., 2024) и RE-Bench от METR (Wijk et al., 2024), которые сосредоточены на хорошо изученных задачах, в основном решаемых за счет инженерных усилий. В отличие от предыдущих работ, например, AI Scientist (Lu et al., 2024b), которые оценивают сквозной агентский конвейер с использованием LLM в качестве судьи, MLRC-Bench измеряет ключевые этапы предложения и реализации новых исследовательских методов и оценивает их с помощью нового строгого протокола и объективных метрик. Наш тщательно отобранный набор из 7 соревновательных задач выявляет значительные трудности для агентов на основе LLM. Даже лучший из протестированных агентов (gemini-exp-1206 под MLAB (Huang et al., 2024a)) закрывает лишь 9,3% разрыва между базовыми показателями и результатами лучших участников-людей. Более того, наш анализ выявляет несоответствие между инновационностью, оцененной LLM, и их фактической производительностью на передовых задачах ML-исследований. MLRC-Bench — это динамический эталонный тест, который разработан для постоянного расширения за счет новых соревнований в области ML, чтобы стимулировать строгую и объективную оценку исследовательских возможностей ИИ.

English

Existing evaluation of large language model (LLM) agents on scientific discovery lacks objective baselines and metrics to assess the viability of their proposed methods. To address this issue, we introduce MLRC-Bench, a benchmark designed to quantify how effectively language agents can tackle challenging Machine Learning (ML) Research Competitions. Our benchmark highlights open research problems that demand novel methodologies, in contrast to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's RE-Bench (Wijk et al., 2024), which focus on well-established research tasks that are largely solvable through sufficient engineering effort. Unlike prior work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of proposing and implementing novel research methods and evaluates them with newly proposed rigorous protocol and objective metrics. Our curated suite of 7 competition tasks reveals significant challenges for LLM agents. Even the best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a)) closes only 9.3% of the gap between baseline and top human participant scores. Furthermore, our analysis reveals a misalignment between the LLM-judged innovation and their actual performance on cutting-edge ML research problems. MLRC-Bench is a dynamic benchmark, which is designed to continually grow with new ML competitions to encourage rigorous and objective evaluations of AI's research capabilities.

MLRC-Bench: Способны ли языковые агенты решать задачи исследований в области машинного обучения?

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Аннотация

Support