MLE-Dojo: Interaktive Umgebungen zur Stärkung von LLM-Agenten im Maschinellen Lernen Engineering
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering
May 12, 2025
Autoren: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI
Zusammenfassung
Wir stellen MLE-Dojo vor, ein Gym-artiges Framework für das systematische Reinforcement Learning, die Bewertung und Verbesserung autonomer Large Language Model (LLM)-Agenten in iterativen Machine Learning Engineering (MLE)-Workflows. Im Gegensatz zu bestehenden Benchmarks, die sich hauptsächlich auf statische Datensätze oder Einzelversuchsbewertungen stützen, bietet MLE-Dojo eine interaktive Umgebung, die es Agenten ermöglicht, iterativ zu experimentieren, zu debuggen und Lösungen durch strukturierte Feedback-Schleifen zu verfeinern. Basierend auf über 200 realen Kaggle-Herausforderungen deckt MLE-Dojo diverse, offene MLE-Aufgaben ab, die sorgfältig ausgewählt wurden, um realistische Ingenieursszenarien wie Datenverarbeitung, Architektursuche, Hyperparameteroptimierung und Code-Debugging widerzuspiegeln. Seine vollständig ausführbare Umgebung unterstützt umfassendes Agententraining sowohl durch überwachtes Feintuning als auch durch Reinforcement Learning und erleichtert iteratives Experimentieren, realistische Datensammlung und Echtzeit-Ergebnisüberprüfung. Umfangreiche Bewertungen von acht führenden LLMs zeigen, dass aktuelle Modelle zwar bedeutende iterative Verbesserungen erzielen, aber dennoch erhebliche Einschränkungen bei der autonomen Generierung langfristiger Lösungen und der effizienten Behebung komplexer Fehler aufweisen. Darüber hinaus integriert die flexible und erweiterbare Architektur von MLE-Dojo nahtlos diverse Datenquellen, Tools und Bewertungsprotokolle und ermöglicht so einzigartig die modellbasierte Agentenoptimierung sowie die Förderung von Interoperabilität, Skalierbarkeit und Reproduzierbarkeit. Wir stellen unser Framework und die Benchmarks als Open Source zur Verfügung, um communitygetriebene Innovationen hin zu MLE-Agenten der nächsten Generation zu fördern.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement
learning, evaluating, and improving autonomous large language model (LLM)
agents in iterative machine learning engineering (MLE) workflows. Unlike
existing benchmarks that primarily rely on static datasets or single-attempt
evaluations, MLE-Dojo provides an interactive environment enabling agents to
iteratively experiment, debug, and refine solutions through structured feedback
loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse,
open-ended MLE tasks carefully curated to reflect realistic engineering
scenarios such as data processing, architecture search, hyperparameter tuning,
and code debugging. Its fully executable environment supports comprehensive
agent training via both supervised fine-tuning and reinforcement learning,
facilitating iterative experimentation, realistic data sampling, and real-time
outcome verification. Extensive evaluations of eight frontier LLMs reveal that
while current models achieve meaningful iterative improvements, they still
exhibit significant limitations in autonomously generating long-horizon
solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's
flexible and extensible architecture seamlessly integrates diverse data
sources, tools, and evaluation protocols, uniquely enabling model-based agent
tuning and promoting interoperability, scalability, and reproducibility. We
open-source our framework and benchmarks to foster community-driven innovation
towards next-generation MLE agents.Summary
AI-Generated Summary