ChatPaper.aiChatPaper

MLE-Dojo: Interactieve Omgevingen voor het Versterken van LLM-Agenten in Machine Learning Engineering

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
Auteurs: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI

Samenvatting

We introduceren MLE-Dojo, een Gym-stijl framework voor het systematisch versterken, evalueren en verbeteren van autonome large language model (LLM) agents in iteratieve machine learning engineering (MLE) workflows. In tegenstelling tot bestaande benchmarks die voornamelijk vertrouwen op statische datasets of evaluaties in één poging, biedt MLE-Dojo een interactieve omgeving die agents in staat stelt om iteratief te experimenteren, te debuggen en oplossingen te verfijnen via gestructureerde feedbackloops. Gebouwd op basis van 200+ real-world Kaggle-uitdagingen, omvat MLE-Dojo diverse, open-einde MLE-taken die zorgvuldig zijn samengesteld om realistische engineering scenario's weer te geven, zoals gegevensverwerking, architectuurzoektochten, hyperparameterafstemming en code-debugging. De volledig uitvoerbare omgeving ondersteunt uitgebreide agenttraining via zowel supervised fine-tuning als reinforcement learning, wat iteratief experimenteren, realistische gegevensbemonstering en real-time uitkomstverificatie mogelijk maakt. Uitgebreide evaluaties van acht frontier LLM's onthullen dat, hoewel huidige modellen betekenisvolle iteratieve verbeteringen bereiken, ze nog steeds aanzienlijke beperkingen vertonen in het autonoom genereren van lange-termijn oplossingen en het efficiënt oplossen van complexe fouten. Bovendien integreert de flexibele en uitbreidbare architectuur van MLE-Dojo naadloos diverse gegevensbronnen, tools en evaluatieprotocollen, wat uniek modelgebaseerde agentafstemming mogelijk maakt en interoperabiliteit, schaalbaarheid en reproduceerbaarheid bevordert. We maken ons framework en benchmarks open source om gemeenschapsgedreven innovatie naar de volgende generatie MLE-agents te bevorderen.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.

Summary

AI-Generated Summary

PDF162May 16, 2025