MLGym: Ein neues Framework und Benchmark zur Weiterentwicklung von KI-Forschungsagenten
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
Autoren: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
Zusammenfassung
Wir stellen Meta MLGym und MLGym-Bench vor, ein neues Framework und Benchmark zur Bewertung und Entwicklung von LLM-Agenten für KI-Forschungsaufgaben. Dies ist die erste Gym-Umgebung für maschinelles Lernen (ML), die Forschung zu Reinforcement-Learning (RL)-Algorithmen für das Training solcher Agenten ermöglicht. MLGym-Bench besteht aus 13 vielfältigen und offenen KI-Forschungsaufgaben aus verschiedenen Domänen wie Computer Vision, Natural Language Processing, Reinforcement Learning und Spieltheorie. Die Lösung dieser Aufgaben erfordert reale KI-Forschungskompetenzen wie das Generieren neuer Ideen und Hypothesen, das Erstellen und Verarbeiten von Daten, das Implementieren von ML-Methoden, das Trainieren von Modellen, das Durchführen von Experimenten, das Analysieren der Ergebnisse und das iterative Verbessern eines gegebenen Aufgabenbereichs. Wir bewerten eine Reihe von führenden großen Sprachmodellen (LLMs) wie Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview und Gemini-1.5 Pro anhand unserer Benchmarks. Unser MLGym-Framework erleichtert das Hinzufügen neuer Aufgaben, die Integration und Bewertung von Modellen oder Agenten, die Generierung synthetischer Daten im großen Maßstab sowie die Entwicklung neuer Lernalgorithmen für das Training von Agenten in KI-Forschungsaufgaben. Wir stellen fest, dass aktuelle führende Modelle die gegebenen Baselines verbessern können, meist durch das Finden besserer Hyperparameter, jedoch keine neuen Hypothesen, Algorithmen, Architekturen oder substanziellen Verbesserungen generieren. Wir stellen unser Framework und Benchmark als Open Source zur Verfügung, um zukünftige Forschungen zur Weiterentwicklung der KI-Forschungsfähigkeiten von LLM-Agenten zu fördern.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary