ChatPaper.aiChatPaper

MLE-Smith: Escalado de Tareas de MLE con una Tubería Multiagente Automatizada

MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

October 8, 2025
Autores: Rushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai
cs.AI

Resumen

Si bien los modelos de lenguaje (LMs) han logrado avances significativos en la automatización de la ingeniería de aprendizaje automático (MLE), la adquisición de datos de entrenamiento de MLE de alta calidad está significativamente limitada. Los benchmarks actuales de MLE sufren de baja escalabilidad y aplicabilidad limitada debido a que dependen de tareas estáticas y curadas manualmente, lo que requiere un tiempo y esfuerzo manual extensos para su producción. Presentamos MLE-Smith, una canalización multiagente completamente automatizada, para transformar conjuntos de datos sin procesar en desafíos de MLE al estilo de competencias mediante un paradigma eficiente de generación-verificación-ejecución, que permite escalar tareas de MLE con calidad verificable, usabilidad en el mundo real y diversidad rica. La canalización multiagente propuesta en MLE-Smith impulsa el diseño estructurado de tareas y la refactorización estandarizada, junto con un mecanismo de verificación híbrido que aplica reglas estructurales estrictas y solidez semántica de alto nivel. Además, valida la resolubilidad empírica y la fidelidad en el mundo real mediante la ejecución interactiva. Aplicamos MLE-Smith a 224 conjuntos de datos del mundo real y generamos 606 tareas que abarcan múltiples categorías, objetivos y modalidades, demostrando que MLE-Smith puede funcionar de manera efectiva en una amplia gama de conjuntos de datos del mundo real. La evaluación de las tareas generadas muestra que el rendimiento de ocho LMs principales y de vanguardia en las tareas de MLE-Smith está fuertemente correlacionado con su rendimiento en tareas diseñadas cuidadosamente por humanos, destacando la efectividad de MLE-Smith para escalar tareas de MLE mientras se mantiene la calidad de las tareas.
English
While Language Models (LMs) have made significant progress in automating machine learning engineering (MLE), the acquisition of high-quality MLE training data is significantly constrained. Current MLE benchmarks suffer from low scalability and limited applicability because they rely on static, manually curated tasks, demanding extensive time and manual effort to produce. We introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw datasets into competition-style MLE challenges through an efficient generate-verify-execute paradigm for scaling MLE tasks with verifiable quality, real-world usability, and rich diversity. The proposed multi-agent pipeline in MLE-Smith drives structured task design and standardized refactoring, coupled with a hybrid verification mechanism that enforces strict structural rules and high-level semantic soundness. It further validates empirical solvability and real-world fidelity through interactive execution. We apply MLE-Smith to 224 of real-world datasets and generate 606 tasks spanning multiple categories, objectives, and modalities, demonstrating that MLE-Smith can work effectively across a wide range of real-world datasets. Evaluation on the generated tasks shows that the performance of eight mainstream and cutting-edge LLMs on MLE-Smith tasks is strongly correlated with their performance on carefully human-designed tasks, highlighting the effectiveness of the MLE-Smith to scaling up MLE tasks, while maintaining task quality.
PDF52October 9, 2025