MLGym: Un Nuovo Framework e Benchmark per Avanzare la Ricerca sugli Agenti di Intelligenza Artificiale
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
Autori: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
Abstract
Introduciamo Meta MLGym e MLGym-Bench, un nuovo framework e benchmark per valutare e sviluppare agenti LLM su compiti di ricerca in IA. Questo è il primo ambiente Gym per compiti di machine learning (ML), che abilita la ricerca su algoritmi di reinforcement learning (RL) per l'addestramento di tali agenti. MLGym-Bench consiste in 13 compiti di ricerca in IA diversi e aperti, provenienti da domini come computer vision, elaborazione del linguaggio naturale, reinforcement learning e teoria dei giochi. Risolvere questi compiti richiede competenze di ricerca in IA del mondo reale, come generare nuove idee e ipotesi, creare e processare dati, implementare metodi di ML, addestrare modelli, eseguire esperimenti, analizzare i risultati e iterare questo processo per migliorare un determinato compito. Valutiamo diversi modelli linguistici di frontiera (LLM) sui nostri benchmark, come Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Il nostro framework MLGym rende semplice aggiungere nuovi compiti, integrare e valutare modelli o agenti, generare dati sintetici su larga scala e sviluppare nuovi algoritmi di apprendimento per addestrare agenti su compiti di ricerca in IA. Rileviamo che gli attuali modelli di frontiera possono migliorare rispetto ai baseline forniti, solitamente trovando iperparametri migliori, ma non generano ipotesi, algoritmi, architetture o miglioramenti sostanziali nuovi. Rendiamo open-source il nostro framework e benchmark per facilitare future ricerche nel potenziamento delle capacità di ricerca in IA degli agenti LLM.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary