ChatPaper.aiChatPaper

MLRC-Bench: Kunnen taalagentschappen machine learning-onderzoeksuitdagingen oplossen?

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

April 13, 2025
Auteurs: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI

Samenvatting

De bestaande evaluatie van grote taalmodel (LLM) agents op het gebied van wetenschappelijke ontdekking ontbreekt het aan objectieve referentiepunten en metrieken om de haalbaarheid van hun voorgestelde methoden te beoordelen. Om dit probleem aan te pakken, introduceren we MLRC-Bench, een benchmark die is ontworpen om te kwantificeren hoe effectief taalagents uitdagende Machine Learning (ML) Onderzoekscompetities kunnen aanpakken. Onze benchmark benadrukt open onderzoeksproblemen die nieuwe methodologieën vereisen, in tegenstelling tot recente benchmarks zoals OpenAI's MLE-Bench (Chan et al., 2024) en METR's RE-Bench (Wijk et al., 2024), die zich richten op goed gevestigde onderzoeks taken die grotendeels oplosbaar zijn door voldoende technische inspanning. In tegenstelling tot eerder werk, bijvoorbeeld AI Scientist (Lu et al., 2024b), dat de end-to-end agentische pijplijn evalueert door LLM-as-a-judge te gebruiken, meet MLRC-Bench de cruciale stappen van het voorstellen en implementeren van nieuwe onderzoeksmethoden en evalueert deze met nieuw voorgestelde rigoureuze protocollen en objectieve metrieken. Onze samengestelde reeks van 7 competitie taken onthult aanzienlijke uitdagingen voor LLM agents. Zelfs de best presterende geteste agent (gemini-exp-1206 onder MLAB (Huang et al., 2024a)) sluit slechts 9,3% van de kloof tussen de baseline en de scores van de beste menselijke deelnemers. Bovendien toont onze analyse een mismatch aan tussen de door LLM beoordeelde innovatie en hun daadwerkelijke prestaties op baanbrekende ML onderzoeksproblemen. MLRC-Bench is een dynamische benchmark, die is ontworpen om voortdurend te groeien met nieuwe ML competities om rigoureuze en objectieve evaluaties van AI's onderzoekscapaciteiten aan te moedigen.
English
Existing evaluation of large language model (LLM) agents on scientific discovery lacks objective baselines and metrics to assess the viability of their proposed methods. To address this issue, we introduce MLRC-Bench, a benchmark designed to quantify how effectively language agents can tackle challenging Machine Learning (ML) Research Competitions. Our benchmark highlights open research problems that demand novel methodologies, in contrast to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's RE-Bench (Wijk et al., 2024), which focus on well-established research tasks that are largely solvable through sufficient engineering effort. Unlike prior work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of proposing and implementing novel research methods and evaluates them with newly proposed rigorous protocol and objective metrics. Our curated suite of 7 competition tasks reveals significant challenges for LLM agents. Even the best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a)) closes only 9.3% of the gap between baseline and top human participant scores. Furthermore, our analysis reveals a misalignment between the LLM-judged innovation and their actual performance on cutting-edge ML research problems. MLRC-Bench is a dynamic benchmark, which is designed to continually grow with new ML competitions to encourage rigorous and objective evaluations of AI's research capabilities.

Summary

AI-Generated Summary

PDF172April 17, 2025