ChatPaper.aiChatPaper

MLE-Dojo: 기계 학습 엔지니어링에서 LLM 에이전트 역량 강화를 위한 인터랙티브 환경

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering

May 12, 2025
저자: Rushi Qiang, Yuchen Zhuang, Yinghao Li, Dingu Sagar V K, Rongzhi Zhang, Changhao Li, Ian Shu-Hei Wong, Sherry Yang, Percy Liang, Chao Zhang, Bo Dai
cs.AI

초록

우리는 반복적인 머신러닝 엔지니어링(MLE) 워크플로우에서 자율적인 대형 언어 모델(LLM) 에이전트를 체계적으로 강화 학습, 평가 및 개선하기 위한 Gym 스타일 프레임워크인 MLE-Dojo를 소개한다. 정적 데이터셋이나 단일 시도 평가에 주로 의존하는 기존 벤치마크와 달리, MLE-Dojo는 구조화된 피드백 루프를 통해 에이전트가 반복적으로 실험, 디버깅 및 솔루션을 개선할 수 있는 상호작용 환경을 제공한다. 200개 이상의 실제 Kaggle 챌린지를 기반으로 구축된 MLE-Dojo는 데이터 처리, 아키텍처 탐색, 하이퍼파라미터 튜닝, 코드 디버깅과 같은 현실적인 엔지니어링 시나리오를 반영하도록 신중하게 선별된 다양한 오픈엔드 MLE 작업을 다룬다. 완전히 실행 가능한 환경은 지도 미세 조정과 강화 학습을 통한 포괄적인 에이전트 훈련을 지원하며, 반복적인 실험, 현실적인 데이터 샘플링 및 실시간 결과 검증을 용이하게 한다. 8개의 최첨단 LLM에 대한 광범위한 평가 결과, 현재 모델들이 의미 있는 반복적 개선을 달성하지만 장기적인 솔루션을 자율적으로 생성하고 복잡한 오류를 효율적으로 해결하는 데 여전히 상당한 한계를 보인다는 것을 확인했다. 또한, MLE-Dojo의 유연하고 확장 가능한 아키텍처는 다양한 데이터 소스, 도구 및 평가 프로토콜을 원활하게 통합하여 모델 기반 에이전트 튜닝을 가능하게 하고 상호운용성, 확장성 및 재현성을 촉진한다. 우리는 차세대 MLE 에이전트를 위한 커뮤니티 주도 혁신을 촉진하기 위해 프레임워크와 벤치마크를 오픈소스로 공개한다.
English
We introduce MLE-Dojo, a Gym-style framework for systematically reinforcement learning, evaluating, and improving autonomous large language model (LLM) agents in iterative machine learning engineering (MLE) workflows. Unlike existing benchmarks that primarily rely on static datasets or single-attempt evaluations, MLE-Dojo provides an interactive environment enabling agents to iteratively experiment, debug, and refine solutions through structured feedback loops. Built upon 200+ real-world Kaggle challenges, MLE-Dojo covers diverse, open-ended MLE tasks carefully curated to reflect realistic engineering scenarios such as data processing, architecture search, hyperparameter tuning, and code debugging. Its fully executable environment supports comprehensive agent training via both supervised fine-tuning and reinforcement learning, facilitating iterative experimentation, realistic data sampling, and real-time outcome verification. Extensive evaluations of eight frontier LLMs reveal that while current models achieve meaningful iterative improvements, they still exhibit significant limitations in autonomously generating long-horizon solutions and efficiently resolving complex errors. Furthermore, MLE-Dojo's flexible and extensible architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, uniquely enabling model-based agent tuning and promoting interoperability, scalability, and reproducibility. We open-source our framework and benchmarks to foster community-driven innovation towards next-generation MLE agents.

Summary

AI-Generated Summary

PDF132May 16, 2025