MLGym: Een Nieuw Framework en Benchmark voor de Vooruitgang van AI Onderzoeksagenten
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
Auteurs: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
Samenvatting
We introduceren Meta MLGym en MLGym-Bench, een nieuw framework en benchmark voor het evalueren en ontwikkelen van LLM-agents voor AI-onderzoekstaken. Dit is de eerste Gym-omgeving voor machine learning (ML)-taken, die onderzoek mogelijk maakt naar reinforcement learning (RL)-algoritmen voor het trainen van dergelijke agents. MLGym-Bench bestaat uit 13 diverse en open-ended AI-onderzoekstaken uit verschillende domeinen zoals computer vision, natural language processing, reinforcement learning en speltheorie. Het oplossen van deze taken vereist real-world AI-onderzoekvaardigheden, zoals het genereren van nieuwe ideeën en hypothesen, het creëren en verwerken van data, het implementeren van ML-methoden, het trainen van modellen, het uitvoeren van experimenten, het analyseren van de resultaten en het itereren door dit proces om een gegeven taak te verbeteren. We evalueren een aantal frontier large language models (LLMs) op onze benchmarks, zoals Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview en Gemini-1.5 Pro. Ons MLGym-framework maakt het eenvoudig om nieuwe taken toe te voegen, modellen of agents te integreren en te evalueren, synthetische data op grote schaal te genereren, en nieuwe leeralgoritmen te ontwikkelen voor het trainen van agents op AI-onderzoekstaken. We constateren dat de huidige frontier-modellen de gegeven baselines kunnen verbeteren, meestal door betere hyperparameters te vinden, maar geen nieuwe hypothesen, algoritmen, architecturen of substantiële verbeteringen genereren. We maken ons framework en benchmark open source om toekomstig onderzoek te faciliteren in het bevorderen van de AI-onderzoekcapaciteiten van LLM-agents.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary