ChatPaper.aiChatPaper

MLE-Dojo: Ambienti Interattivi per Potenziare gli Agenti LLM nell'Ingegneria del Machine Learning

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
Autori: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI

Abstract

Presentiamo MLE-Dojo, un framework in stile Gym per l'apprendimento per rinforzo sistematico, la valutazione e il miglioramento di agenti autonomi basati su grandi modelli linguistici (LLM) all'interno di flussi di lavoro iterativi di ingegneria del machine learning (MLE). A differenza dei benchmark esistenti che si basano principalmente su dataset statici o valutazioni a singolo tentativo, MLE-Dojo fornisce un ambiente interattivo che consente agli agenti di sperimentare, debuggare e affinare le soluzioni in modo iterativo attraverso cicli di feedback strutturati. Basato su oltre 200 sfide real-world di Kaggle, MLE-Dojo copre una vasta gamma di task MLE aperti e diversificati, accuratamente selezionati per riflettere scenari ingegneristici realistici come l'elaborazione dei dati, la ricerca di architetture, l'ottimizzazione degli iperparametri e il debugging del codice. Il suo ambiente completamente eseguibile supporta un addestramento completo degli agenti sia tramite fine-tuning supervisionato che apprendimento per rinforzo, facilitando la sperimentazione iterativa, il campionamento realistico dei dati e la verifica in tempo reale dei risultati. Valutazioni estensive su otto LLM all'avanguardia rivelano che, sebbene i modelli attuali raggiungano miglioramenti iterativi significativi, presentano ancora limitazioni rilevanti nella generazione autonoma di soluzioni a lungo termine e nella risoluzione efficiente di errori complessi. Inoltre, l'architettura flessibile ed estensibile di MLE-Dojo integra senza soluzione di continuità diverse fonti di dati, strumenti e protocolli di valutazione, abilitando in modo unico il tuning degli agenti basati su modelli e promuovendo interoperabilità, scalabilità e riproducibilità. Rendiamo open-source il nostro framework e i benchmark per favorire l'innovazione guidata dalla comunità verso la prossima generazione di agenti MLE.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.
PDF182May 16, 2025