ChatPaper.aiChatPaper

MLE-Dojo : Environnements interactifs pour renforcer les agents LLM dans l'ingénierie du machine learning

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
Auteurs: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI

Résumé

Nous présentons MLE-Dojo, un framework de type Gym pour l'apprentissage par renforcement systématique, l'évaluation et l'amélioration d'agents autonomes basés sur des grands modèles de langage (LLM) dans des workflows itératifs d'ingénierie de l'apprentissage automatique (MLE). Contrairement aux benchmarks existants qui reposent principalement sur des ensembles de données statiques ou des évaluations à tentative unique, MLE-Dojo fournit un environnement interactif permettant aux agents d'expérimenter, de déboguer et d'affiner leurs solutions de manière itérative grâce à des boucles de rétroaction structurées. Basé sur plus de 200 défis réels de Kaggle, MLE-Dojo couvre une variété de tâches MLE ouvertes et soigneusement sélectionnées pour refléter des scénarios d'ingénierie réalistes tels que le traitement des données, la recherche d'architecture, le réglage des hyperparamètres et le débogage de code. Son environnement entièrement exécutable permet un entraînement complet des agents via un ajustement fin supervisé et un apprentissage par renforcement, facilitant l'expérimentation itérative, l'échantillonnage réaliste de données et la vérification en temps réel des résultats. Des évaluations approfondies de huit LLM de pointe révèlent que si les modèles actuels réalisent des améliorations itératives significatives, ils présentent encore des limitations importantes dans la génération autonome de solutions à long terme et la résolution efficace d'erreurs complexes. De plus, l'architecture flexible et extensible de MLE-Dojo intègre de manière transparente diverses sources de données, outils et protocoles d'évaluation, permettant de manière unique l'ajustement des agents basés sur des modèles et favorisant l'interopérabilité, l'évolutivité et la reproductibilité. Nous ouvrons notre framework et nos benchmarks en open source pour encourager l'innovation communautaire vers la prochaine génération d'agents MLE.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.

Summary

AI-Generated Summary

PDF132May 16, 2025