MLRC-Bench : Les agents de langage peuvent-ils relever les défis de la recherche en apprentissage automatique ?

papers.abstract

L'évaluation existante des agents de modèles de langage à grande échelle (LLM) dans le domaine de la découverte scientifique manque de références objectives et de métriques pour juger de la viabilité de leurs méthodes proposées. Pour résoudre ce problème, nous introduisons MLRC-Bench, un benchmark conçu pour quantifier l'efficacité avec laquelle les agents de langage peuvent relever des défis complexes dans le cadre de compétitions de recherche en apprentissage automatique (ML). Notre benchmark met en lumière des problèmes de recherche ouverts qui nécessitent des méthodologies novatrices, contrairement à des benchmarks récents tels que MLE-Bench d'OpenAI (Chan et al., 2024) et RE-Bench de METR (Wijk et al., 2024), qui se concentrent sur des tâches de recherche bien établies et largement résolubles grâce à un effort d'ingénierie suffisant. Contrairement aux travaux antérieurs, par exemple AI Scientist (Lu et al., 2024b), qui évaluent le pipeline agentique de bout en bout en utilisant un LLM comme juge, MLRC-Bench mesure les étapes clés de proposition et de mise en œuvre de nouvelles méthodes de recherche et les évalue à l'aide d'un protocole rigoureux et de métriques objectives nouvellement proposés. Notre ensemble de 7 tâches de compétition révèle des défis significatifs pour les agents LLM. Même l'agent le plus performant testé (gemini-exp-1206 sous MLAB (Huang et al., 2024a)) ne comble que 9,3 % de l'écart entre les scores de référence et ceux des meilleurs participants humains. De plus, notre analyse révèle un décalage entre l'innovation jugée par les LLM et leur performance réelle sur des problèmes de recherche de pointe en ML. MLRC-Bench est un benchmark dynamique, conçu pour évoluer continuellement avec de nouvelles compétitions ML afin d'encourager des évaluations rigoureuses et objectives des capacités de recherche de l'IA.

English

Existing evaluation of large language model (LLM) agents on scientific discovery lacks objective baselines and metrics to assess the viability of their proposed methods. To address this issue, we introduce MLRC-Bench, a benchmark designed to quantify how effectively language agents can tackle challenging Machine Learning (ML) Research Competitions. Our benchmark highlights open research problems that demand novel methodologies, in contrast to recent benchmarks such as OpenAI's MLE-Bench (Chan et al., 2024) and METR's RE-Bench (Wijk et al., 2024), which focus on well-established research tasks that are largely solvable through sufficient engineering effort. Unlike prior work, e.g., AI Scientist (Lu et al., 2024b), which evaluates the end-to-end agentic pipeline by using LLM-as-a-judge, MLRC-Bench measures the key steps of proposing and implementing novel research methods and evaluates them with newly proposed rigorous protocol and objective metrics. Our curated suite of 7 competition tasks reveals significant challenges for LLM agents. Even the best-performing tested agent (gemini-exp-1206 under MLAB (Huang et al., 2024a)) closes only 9.3% of the gap between baseline and top human participant scores. Furthermore, our analysis reveals a misalignment between the LLM-judged innovation and their actual performance on cutting-edge ML research problems. MLRC-Bench is a dynamic benchmark, which is designed to continually grow with new ML competitions to encourage rigorous and objective evaluations of AI's research capabilities.

MLRC-Bench : Les agents de langage peuvent-ils relever les défis de la recherche en apprentissage automatique ?

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

papers.abstract

Support