MLRC-Bench: Können Sprachagenten Herausforderungen der maschinellen Lernforschung lösen?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
Autoren: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Zusammenfassung
Die bisherige Bewertung von Agenten auf Basis großer Sprachmodelle (LLMs) im Bereich der wissenschaftlichen Entdeckung mangelt es an objektiven Baselines und Metriken, um die Tragfähigkeit ihrer vorgeschlagenen Methoden zu beurteilen. Um dieses Problem zu adressieren, führen wir MLRC-Bench ein, einen Benchmark, der darauf abzielt, zu quantifizieren, wie effektiv Sprachagenten herausfordernde Machine Learning (ML)-Forschungswettbewerbe bewältigen können. Unser Benchmark hebt offene Forschungsprobleme hervor, die neuartige Methoden erfordern, im Gegensatz zu kürzlich veröffentlichten Benchmarks wie OpenAI's MLE-Bench (Chan et al., 2024) und METR's RE-Bench (Wijk et al., 2024), die sich auf etablierte Forschungsaufgaben konzentrieren, die weitgehend durch ausreichenden technischen Aufwand lösbar sind. Im Gegensatz zu früheren Arbeiten, wie z. B. AI Scientist (Lu et al., 2024b), die die end-to-end agentische Pipeline durch die Verwendung von LLM-as-a-judge bewerten, misst MLRC-Bench die Schlüsselschritte der Vorschlag und Implementierung neuartiger Forschungsmethoden und bewertet sie mit einem neu vorgeschlagenen rigorosen Protokoll und objektiven Metriken. Unser kuratiertes Set von 7 Wettbewerbsaufgaben offenbart erhebliche Herausforderungen für LLM-Agenten. Selbst der beste getestete Agent (gemini-exp-1206 unter MLAB (Huang et al., 2024a)) schließt nur 9,3 % der Lücke zwischen der Baseline und den besten menschlichen Teilnehmerergebnissen. Darüber hinaus zeigt unsere Analyse eine Fehlausrichtung zwischen der von LLM-bewerteten Innovation und ihrer tatsächlichen Leistung bei hochmodernen ML-Forschungsproblemen. MLRC-Bench ist ein dynamischer Benchmark, der kontinuierlich mit neuen ML-Wettbewerben wachsen soll, um rigorose und objektive Bewertungen der Forschungsfähigkeiten von KI zu fördern.
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.Summary
AI-Generated Summary