MLE-Dojo: 機械学習エンジニアリングにおけるLLMエージェントを強化するためのインタラクティブ環境
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering
May 12, 2025
著者: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI
要旨
私たちは、反復的な機械学習エンジニアリング(MLE)ワークフローにおいて、自律的な大規模言語モデル(LLM)エージェントを体系的に強化学習し、評価し、改善するためのGymスタイルのフレームワークであるMLE-Dojoを紹介します。既存のベンチマークが主に静的なデータセットや単一試行の評価に依存しているのに対し、MLE-Dojoは、エージェントが構造化されたフィードバックループを通じて反復的に実験、デバッグ、解決策を洗練できるインタラクティブな環境を提供します。200以上の実世界のKaggleチャレンジに基づいて構築されたMLE-Dojoは、データ処理、アーキテクチャ探索、ハイパーパラメータチューニング、コードデバッグなど、現実的なエンジニアリングシナリオを反映するよう慎重に選ばれた多様でオープンエンドなMLEタスクをカバーしています。その完全に実行可能な環境は、教師ありファインチューニングと強化学習の両方による包括的なエージェントトレーニングをサポートし、反復的な実験、現実的なデータサンプリング、リアルタイムの結果検証を容易にします。8つの最先端LLMの広範な評価により、現在のモデルは意味のある反復的改善を達成するものの、長期的な解決策を自律的に生成し、複雑なエラーを効率的に解決する能力には依然として大きな制限があることが明らかになりました。さらに、MLE-Dojoの柔軟で拡張可能なアーキテクチャは、多様なデータソース、ツール、評価プロトコルをシームレスに統合し、モデルベースのエージェントチューニングを可能にし、相互運用性、スケーラビリティ、再現性を促進します。私たちは、次世代のMLEエージェントに向けたコミュニティ主導のイノベーションを促進するため、フレームワークとベンチマークをオープンソース化します。
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement
learning, evaluating, and improving autonomous large language model (LLM)
agents in iterative machine learning engineering (MLE) workflows. Unlike
existing benchmarks that primarily rely on static datasets or single-attempt
evaluations, MLE-Dojo provides an interactive environment enabling agents to
iteratively experiment, debug, and refine solutions through structured feedback
loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse,
open-ended MLE tasks carefully curated to reflect realistic engineering
scenarios such as data processing, architecture search, hyperparameter tuning,
and code debugging. Its fully executable environment supports comprehensive
agent training via both supervised fine-tuning and reinforcement learning,
facilitating iterative experimentation, realistic data sampling, and real-time
outcome verification. Extensive evaluations of eight frontier LLMs reveal that
while current models achieve meaningful iterative improvements, they still
exhibit significant limitations in autonomously generating long-horizon
solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's
flexible and extensible architecture seamlessly integrates diverse data
sources, tools, and evaluation protocols, uniquely enabling model-based agent
tuning and promoting interoperability, scalability, and reproducibility. We
open-source our framework and benchmarks to foster community-driven innovation
towards next-generation MLE agents.Summary
AI-Generated Summary