MLRC-Bench: 언어 에이전트가 머신러닝 연구 과제를 해결할 수 있을까?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
저자: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
초록
과학적 발견에 대한 대형 언어 모델(LLM) 에이전트의 기존 평가는 제안된 방법의 타당성을 평가하기 위한 객관적인 기준과 지표가 부족한 상황이다. 이러한 문제를 해결하기 위해, 우리는 언어 에이전트가 도전적인 머신러닝(ML) 연구 경연 대회를 얼마나 효과적으로 해결할 수 있는지를 정량화하기 위해 설계된 벤치마크인 MLRC-Bench를 소개한다. 우리의 벤치마크는 충분한 엔지니어링 노력으로 대부분 해결 가능한 잘 정립된 연구 과제에 초점을 맞춘 OpenAI의 MLE-Bench(Chan et al., 2024) 및 METR의 RE-Bench(Wijk et al., 2024)와 같은 최근 벤치마크와 달리, 새로운 방법론을 요구하는 열린 연구 문제를 강조한다. LLM-as-a-judge를 사용하여 종단 간 에이전트 파이프라인을 평가하는 AI Scientist(Lu et al., 2024b)와 같은 기존 연구와 달리, MLRC-Bench는 새로운 연구 방법을 제안하고 구현하는 핵심 단계를 측정하며, 새로 제안된 엄격한 프로토콜과 객관적인 지표로 이를 평가한다. 우리가 선별한 7개의 경연 과제는 LLM 에이전트에게 상당한 도전을 드러낸다. 테스트된 에이전트 중 최고 성능을 보인 에이전트(MLAB(Huang et al., 2024a) 하의 gemini-exp-1206)조차도 기준선과 최고 인간 참가자 점수 간의 격차를 9.3%만 좁힌다. 더욱이, 우리의 분석은 LLM이 판단한 혁신성과 최첨단 ML 연구 문제에서의 실제 성과 간의 불일치를 보여준다. MLRC-Bench는 새로운 ML 경연 대회와 함께 지속적으로 성장하도록 설계된 동적 벤치마크로, AI의 연구 능력에 대한 엄격하고 객관적인 평가를 장려한다.
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.Summary
AI-Generated Summary