MLRC-Bench: 言語エージェントは機械学習研究の課題を解決できるか?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
著者: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
要旨
既存の大規模言語モデル(LLM)エージェントの科学的発見に関する評価では、提案手法の実現可能性を客観的に評価するためのベースラインや指標が不足している。この問題に対処するため、我々はMLRC-Benchを導入した。これは、言語エージェントが挑戦的な機械学習(ML)研究コンペティションにどの程度効果的に対処できるかを定量化するためのベンチマークである。我々のベンチマークは、新たな方法論を必要とする未解決の研究問題に焦点を当てており、OpenAIのMLE-Bench(Chan et al., 2024)やMETRのRE-Bench(Wijk et al., 2024)などの最近のベンチマークとは対照的である。これらのベンチマークは、十分なエンジニアリング努力によって解決可能な確立された研究タスクに焦点を当てている。従来の研究、例えばAI Scientist(Lu et al., 2024b)とは異なり、MLRC-BenchはLLM-as-a-judgeを使用してエンドツーエンドのエージェントパイプラインを評価するのではなく、新たな研究方法を提案し実装する主要なステップを測定し、新たに提案された厳密なプロトコルと客観的な指標で評価する。我々が選定した7つのコンペティションタスクのスイートは、LLMエージェントにとって重要な課題を明らかにしている。テストされた最良のエージェント(MLAB(Huang et al., 2024a)のgemini-exp-1206)でさえ、ベースラインとトップの人間参加者のスコアの間のギャップを9.3%しか埋められなかった。さらに、我々の分析は、LLMが判断した革新性と、最先端のML研究問題における実際のパフォーマンスとの間にミスアライメントがあることを明らかにしている。MLRC-Benchは動的なベンチマークであり、新しいMLコンペティションと共に継続的に成長するように設計されており、AIの研究能力を厳密かつ客観的に評価することを奨励する。
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.Summary
AI-Generated Summary