MLGym: Un Nuovo Framework e Benchmark per Avanzare la Ricerca sugli Agenti di Intelligenza ArtificialeMLGym: A New Framework and Benchmark for Advancing AI Research Agents
Introduciamo Meta MLGym e MLGym-Bench, un nuovo framework e benchmark per valutare e sviluppare agenti LLM su compiti di ricerca in IA. Questo è il primo ambiente Gym per compiti di machine learning (ML), che abilita la ricerca su algoritmi di reinforcement learning (RL) per l'addestramento di tali agenti. MLGym-Bench consiste in 13 compiti di ricerca in IA diversi e aperti, provenienti da domini come computer vision, elaborazione del linguaggio naturale, reinforcement learning e teoria dei giochi. Risolvere questi compiti richiede competenze di ricerca in IA del mondo reale, come generare nuove idee e ipotesi, creare e processare dati, implementare metodi di ML, addestrare modelli, eseguire esperimenti, analizzare i risultati e iterare questo processo per migliorare un determinato compito. Valutiamo diversi modelli linguistici di frontiera (LLM) sui nostri benchmark, come Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview e Gemini-1.5 Pro. Il nostro framework MLGym rende semplice aggiungere nuovi compiti, integrare e valutare modelli o agenti, generare dati sintetici su larga scala e sviluppare nuovi algoritmi di apprendimento per addestrare agenti su compiti di ricerca in IA. Rileviamo che gli attuali modelli di frontiera possono migliorare rispetto ai baseline forniti, solitamente trovando iperparametri migliori, ma non generano ipotesi, algoritmi, architetture o miglioramenti sostanziali nuovi. Rendiamo open-source il nostro framework e benchmark per facilitare future ricerche nel potenziamento delle capacità di ricerca in IA degli agenti LLM.