MLE-Dojo: Интерактивные среды для расширения возможностей агентов на основе больших языковых моделей в области инженерии машинного обучения
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering
May 12, 2025
Авторы: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI
Аннотация
Мы представляем MLE-Dojo, фреймворк в стиле Gym для систематического обучения с подкреплением, оценки и улучшения автономных агентов на основе больших языковых моделей (LLM) в итеративных процессах машинного обучения (MLE). В отличие от существующих бенчмарков, которые в основном полагаются на статические наборы данных или одноразовые оценки, MLE-Dojo предоставляет интерактивную среду, позволяющую агентам итеративно экспериментировать, отлаживать и совершенствовать решения через структурированные циклы обратной связи. Построенный на основе более 200 реальных задач Kaggle, MLE-Dojo охватывает разнообразные, открытые задачи MLE, тщательно отобранные для отражения реалистичных инженерных сценариев, таких как обработка данных, поиск архитектур, настройка гиперпараметров и отладка кода. Его полностью исполняемая среда поддерживает всестороннее обучение агентов как через тонкую настройку с учителем, так и через обучение с подкреплением, способствуя итеративному экспериментированию, реалистичному выбору данных и проверке результатов в реальном времени. Обширные оценки восьми передовых LLM показывают, что, хотя текущие модели достигают значимых итеративных улучшений, они всё ещё демонстрируют существенные ограничения в автономной генерации долгосрочных решений и эффективном устранении сложных ошибок. Кроме того, гибкая и расширяемая архитектура MLE-Dojo бесшовно интегрирует разнообразные источники данных, инструменты и протоколы оценки, уникально обеспечивая настройку агентов на основе моделей и способствуя взаимодействию, масштабируемости и воспроизводимости. Мы открываем исходный код нашего фреймворка и бенчмарков для стимулирования инноваций, направленных на создание агентов MLE следующего поколения.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement
learning, evaluating, and improving autonomous large language model (LLM)
agents in iterative machine learning engineering (MLE) workflows. Unlike
existing benchmarks that primarily rely on static datasets or single-attempt
evaluations, MLE-Dojo provides an interactive environment enabling agents to
iteratively experiment, debug, and refine solutions through structured feedback
loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse,
open-ended MLE tasks carefully curated to reflect realistic engineering
scenarios such as data processing, architecture search, hyperparameter tuning,
and code debugging. Its fully executable environment supports comprehensive
agent training via both supervised fine-tuning and reinforcement learning,
facilitating iterative experimentation, realistic data sampling, and real-time
outcome verification. Extensive evaluations of eight frontier LLMs reveal that
while current models achieve meaningful iterative improvements, they still
exhibit significant limitations in autonomously generating long-horizon
solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's
flexible and extensible architecture seamlessly integrates diverse data
sources, tools, and evaluation protocols, uniquely enabling model-based agent
tuning and promoting interoperability, scalability, and reproducibility. We
open-source our framework and benchmarks to foster community-driven innovation
towards next-generation MLE agents.Summary
AI-Generated Summary