MLRC-Bench : Les agents de langage peuvent-ils relever les défis de la recherche en apprentissage automatique ?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
April 13, 2025
Auteurs: Yunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang
cs.AI
Résumé
L'évaluation existante des agents de modèles de langage à grande échelle (LLM) dans le domaine de la découverte scientifique manque de références objectives et de métriques pour juger de la viabilité de leurs méthodes proposées. Pour résoudre ce problème, nous introduisons MLRC-Bench, un benchmark conçu pour quantifier l'efficacité avec laquelle les agents de langage peuvent relever des défis complexes dans le cadre de compétitions de recherche en apprentissage automatique (ML). Notre benchmark met en lumière des problèmes de recherche ouverts qui nécessitent des méthodologies novatrices, contrairement à des benchmarks récents tels que MLE-Bench d'OpenAI (Chan et al., 2024) et RE-Bench de METR (Wijk et al., 2024), qui se concentrent sur des tâches de recherche bien établies et largement résolubles grâce à un effort d'ingénierie suffisant. Contrairement aux travaux antérieurs, par exemple AI Scientist (Lu et al., 2024b), qui évaluent le pipeline agentique de bout en bout en utilisant un LLM comme juge, MLRC-Bench mesure les étapes clés de proposition et de mise en œuvre de nouvelles méthodes de recherche et les évalue à l'aide d'un protocole rigoureux et de métriques objectives nouvellement proposés. Notre ensemble de 7 tâches de compétition révèle des défis significatifs pour les agents LLM. Même l'agent le plus performant testé (gemini-exp-1206 sous MLAB (Huang et al., 2024a)) ne comble que 9,3 % de l'écart entre les scores de référence et ceux des meilleurs participants humains. De plus, notre analyse révèle un décalage entre l'innovation jugée par les LLM et leur performance réelle sur des problèmes de recherche de pointe en ML. MLRC-Bench est un benchmark dynamique, conçu pour évoluer continuellement avec de nouvelles compétitions ML afin d'encourager des évaluations rigoureuses et objectives des capacités de recherche de l'IA.
English
Existing evaluation of large language model (LLM) agents on scientific
discovery lacks objective baselines and metrics to assess the viability of
their proposed methods. To address this issue, we introduce MLRC-Bench, a
benchmark designed to quantify how effectively language agents can tackle
challenging Machine Learning (ML) Research Competitions. Our benchmark
highlights open research problems that demand novel methodologies, in contrast
to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's
RE-Bench (Wijk et al., 2024), which focus on well-established research tasks
that are largely solvable through sufficient engineering effort. Unlike prior
work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end
agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of
proposing and implementing novel research methods and evaluates them with newly
proposed rigorous protocol and objective metrics. Our curated suite of 7
competition tasks reveals significant challenges for LLM agents. Even the
best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a))
closes only 9.3% of the gap between baseline and top human participant scores.
Furthermore, our analysis reveals a misalignment between the LLM-judged
innovation and their actual performance on cutting-edge ML research problems.
MLRC-Bench is a dynamic benchmark, which is designed to continually grow with
new ML competitions to encourage rigorous and objective evaluations of AI's
research capabilities.Summary
AI-Generated Summary