MLRC-Bench: Können Sprachagenten Herausforderungen der maschinellen Lernforschung lösen?

papers.abstract

Die bisherige Bewertung von Agenten auf Basis großer Sprachmodelle (LLMs) im Bereich der wissenschaftlichen Entdeckung mangelt es an objektiven Baselines und Metriken, um die Tragfähigkeit ihrer vorgeschlagenen Methoden zu beurteilen. Um dieses Problem zu adressieren, führen wir MLRC-Bench ein, einen Benchmark, der darauf abzielt, zu quantifizieren, wie effektiv Sprachagenten herausfordernde Machine Learning (ML)-Forschungswettbewerbe bewältigen können. Unser Benchmark hebt offene Forschungsprobleme hervor, die neuartige Methoden erfordern, im Gegensatz zu kürzlich veröffentlichten Benchmarks wie OpenAI's MLE-Bench (Chan et al., 2024) und METR's RE-Bench (Wijk et al., 2024), die sich auf etablierte Forschungsaufgaben konzentrieren, die weitgehend durch ausreichenden technischen Aufwand lösbar sind. Im Gegensatz zu früheren Arbeiten, wie z. B. AI Scientist (Lu et al., 2024b), die die end-to-end agentische Pipeline durch die Verwendung von LLM-as-a-judge bewerten, misst MLRC-Bench die Schlüsselschritte der Vorschlag und Implementierung neuartiger Forschungsmethoden und bewertet sie mit einem neu vorgeschlagenen rigorosen Protokoll und objektiven Metriken. Unser kuratiertes Set von 7 Wettbewerbsaufgaben offenbart erhebliche Herausforderungen für LLM-Agenten. Selbst der beste getestete Agent (gemini-exp-1206 unter MLAB (Huang et al., 2024a)) schließt nur 9,3 % der Lücke zwischen der Baseline und den besten menschlichen Teilnehmerergebnissen. Darüber hinaus zeigt unsere Analyse eine Fehlausrichtung zwischen der von LLM-bewerteten Innovation und ihrer tatsächlichen Leistung bei hochmodernen ML-Forschungsproblemen. MLRC-Bench ist ein dynamischer Benchmark, der kontinuierlich mit neuen ML-Wettbewerben wachsen soll, um rigorose und objektive Bewertungen der Forschungsfähigkeiten von KI zu fördern.

English

Existing evaluation of large language model (LLM) agents on scientific discovery lacks objective baselines and metrics to assess the viability of their proposed methods. To address this issue, we introduce MLRC-Bench, a benchmark designed to quantify how effectively language agents can tackle challenging Machine Learning (ML) Research Competitions. Our benchmark highlights open research problems that demand novel methodologies, in contrast to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's RE-Bench (Wijk et al., 2024), which focus on well-established research tasks that are largely solvable through sufficient engineering effort. Unlike prior work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of proposing and implementing novel research methods and evaluates them with newly proposed rigorous protocol and objective metrics. Our curated suite of 7 competition tasks reveals significant challenges for LLM agents. Even the best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a)) closes only 9.3% of the gap between baseline and top human participant scores. Furthermore, our analysis reveals a misalignment between the LLM-judged innovation and their actual performance on cutting-edge ML research problems. MLRC-Bench is a dynamic benchmark, which is designed to continually grow with new ML competitions to encourage rigorous and objective evaluations of AI's research capabilities.

MLRC-Bench: Können Sprachagenten Herausforderungen der maschinellen Lernforschung lösen?

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

papers.abstract

Support