MLGym : Un nouveau cadre de référence et benchmark pour faire progresser les agents de recherche en IA
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
Auteurs: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
Résumé
Nous présentons Meta MLGym et MLGym-Bench, un nouveau cadre et un benchmark pour évaluer et développer des agents LLM sur des tâches de recherche en IA. Il s'agit du premier environnement Gym dédié aux tâches de machine learning (ML), permettant la recherche sur les algorithmes d'apprentissage par renforcement (RL) pour entraîner de tels agents. MLGym-Bench comprend 13 tâches de recherche en IA variées et ouvertes, couvrant des domaines tels que la vision par ordinateur, le traitement du langage naturel, l'apprentissage par renforcement et la théorie des jeux. La résolution de ces tâches nécessite des compétences réelles en recherche en IA, telles que la génération de nouvelles idées et hypothèses, la création et le traitement de données, l'implémentation de méthodes de ML, l'entraînement de modèles, la conduite d'expériences, l'analyse des résultats et l'itération de ce processus pour améliorer une tâche donnée. Nous évaluons plusieurs modèles de langage de pointe (LLM) sur nos benchmarks, tels que Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview et Gemini-1.5 Pro. Notre cadre MLGym facilite l'ajout de nouvelles tâches, l'intégration et l'évaluation de modèles ou d'agents, la génération de données synthétiques à grande échelle, ainsi que le développement de nouveaux algorithmes d'apprentissage pour entraîner des agents sur des tâches de recherche en IA. Nous constatons que les modèles de pointe actuels peuvent améliorer les performances par rapport aux bases de référence, généralement en trouvant de meilleurs hyperparamètres, mais ne génèrent pas d'hypothèses, d'algorithmes, d'architectures ou d'améliorations substantielles novatrices. Nous rendons notre cadre et notre benchmark open-source pour faciliter les recherches futures visant à améliorer les capacités de recherche en IA des agents LLM.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary