ChatPaper.aiChatPaper

MLE-Dojo: Interaktive Umgebungen zur Stärkung von LLM-Agenten im Maschinellen Lernen Engineering

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
Autoren: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI

Zusammenfassung

Wir stellen MLE-Dojo vor, ein Gym-artiges Framework für das systematische Reinforcement Learning, die Bewertung und Verbesserung autonomer Large Language Model (LLM)-Agenten in iterativen Machine Learning Engineering (MLE)-Workflows. Im Gegensatz zu bestehenden Benchmarks, die sich hauptsächlich auf statische Datensätze oder Einzelversuchsbewertungen stützen, bietet MLE-Dojo eine interaktive Umgebung, die es Agenten ermöglicht, iterativ zu experimentieren, zu debuggen und Lösungen durch strukturierte Feedback-Schleifen zu verfeinern. Basierend auf über 200 realen Kaggle-Herausforderungen deckt MLE-Dojo diverse, offene MLE-Aufgaben ab, die sorgfältig ausgewählt wurden, um realistische Ingenieursszenarien wie Datenverarbeitung, Architektursuche, Hyperparameteroptimierung und Code-Debugging widerzuspiegeln. Seine vollständig ausführbare Umgebung unterstützt umfassendes Agententraining sowohl durch überwachtes Feintuning als auch durch Reinforcement Learning und erleichtert iteratives Experimentieren, realistische Datensammlung und Echtzeit-Ergebnisüberprüfung. Umfangreiche Bewertungen von acht führenden LLMs zeigen, dass aktuelle Modelle zwar bedeutende iterative Verbesserungen erzielen, aber dennoch erhebliche Einschränkungen bei der autonomen Generierung langfristiger Lösungen und der effizienten Behebung komplexer Fehler aufweisen. Darüber hinaus integriert die flexible und erweiterbare Architektur von MLE-Dojo nahtlos diverse Datenquellen, Tools und Bewertungsprotokolle und ermöglicht so einzigartig die modellbasierte Agentenoptimierung sowie die Förderung von Interoperabilität, Skalierbarkeit und Reproduzierbarkeit. Wir stellen unser Framework und die Benchmarks als Open Source zur Verfügung, um communitygetriebene Innovationen hin zu MLE-Agenten der nächsten Generation zu fördern.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.

Summary

AI-Generated Summary

PDF132May 16, 2025