MLE-Smith: Масштабирование задач MLE с использованием автоматизированного конвейера на основе мультиагентных систем
MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
October 8, 2025
Авторы: Rushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai
cs.AI
Аннотация
Хотя языковые модели (Language Models, LMs) достигли значительного прогресса в автоматизации инженерии машинного обучения (machine learning engineering, MLE), получение высококачественных обучающих данных для MLE остается серьезно ограниченным. Современные бенчмарки MLE страдают от низкой масштабируемости и ограниченной применимости, поскольку они полагаются на статические, вручную отобранные задачи, требующие значительного времени и ручного труда для создания. Мы представляем MLE-Smith — полностью автоматизированный мультиагентный конвейер, который преобразует исходные наборы данных в соревновательные задачи MLE через эффективную парадигму "генерация-верификация-выполнение", обеспечивая масштабирование задач MLE с проверяемым качеством, практической применимостью и богатым разнообразием. Предложенный мультиагентный конвейер в MLE-Smith способствует структурированному проектированию задач и стандартизированному рефакторингу, дополненному гибридным механизмом проверки, который обеспечивает соблюдение строгих структурных правил и семантической корректности на высоком уровне. Он также подтверждает эмпирическую решаемость и практическую достоверность через интерактивное выполнение. Мы применяем MLE-Smith к 224 реальным наборам данных и генерируем 606 задач, охватывающих множество категорий, целей и модальностей, демонстрируя, что MLE-Smith может эффективно работать с широким спектром реальных данных. Оценка на сгенерированных задачах показывает, что производительность восьми ведущих и передовых LLM на задачах MLE-Smith сильно коррелирует с их производительностью на тщательно разработанных человеком задачах, подчеркивая эффективность MLE-Smith в масштабировании задач MLE при сохранении их качества.
English
While Language Models (LMs) have made significant progress in automating
machine learning engineering (MLE), the acquisition of high-quality MLE
training data is significantly constrained. Current MLE benchmarks suffer from
low scalability and limited applicability because they rely on static, manually
curated tasks, demanding extensive time and manual effort to produce. We
introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw
datasets into competition-style MLE challenges through an efficient
generate-verify-execute paradigm for scaling MLE tasks with verifiable quality,
real-world usability, and rich diversity. The proposed multi-agent pipeline in
MLE-Smith drives structured task design and standardized refactoring, coupled
with a hybrid verification mechanism that enforces strict structural rules and
high-level semantic soundness. It further validates empirical solvability and
real-world fidelity through interactive execution. We apply MLE-Smith to 224 of
real-world datasets and generate 606 tasks spanning multiple categories,
objectives, and modalities, demonstrating that MLE-Smith can work effectively
across a wide range of real-world datasets. Evaluation on the generated tasks
shows that the performance of eight mainstream and cutting-edge LLMs on
MLE-Smith tasks is strongly correlated with their performance on carefully
human-designed tasks, highlighting the effectiveness of the MLE-Smith to
scaling up MLE tasks, while maintaining task quality.