MLE-Smith: Escalonando Tarefas de MLE com Pipeline Multiagente Automatizado
MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
October 8, 2025
Autores: Rushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai
cs.AI
Resumo
Embora os Modelos de Linguagem (LMs) tenham feito progressos significativos na automação da engenharia de aprendizado de máquina (MLE), a aquisição de dados de treinamento de alta qualidade para MLE é significativamente limitada. Os benchmarks atuais de MLE sofrem com baixa escalabilidade e aplicabilidade limitada, pois dependem de tarefas estáticas e manualmente curadas, exigindo tempo extensivo e esforço manual para serem produzidos. Apresentamos o MLE-Smith, um pipeline multiagente totalmente automatizado, para transformar conjuntos de dados brutos em desafios de MLE no estilo de competições por meio de um paradigma eficiente de geração-verificação-execução, visando escalar tarefas de MLE com qualidade verificável, usabilidade no mundo real e diversidade rica. O pipeline multiagente proposto no MLE-Smith impulsiona o design estruturado de tarefas e a refatoração padronizada, aliado a um mecanismo de verificação híbrido que aplica regras estruturais rigorosas e consistência semântica de alto nível. Ele ainda valida a solvabilidade empírica e a fidelidade ao mundo real por meio de execução interativa. Aplicamos o MLE-Smith a 224 conjuntos de dados do mundo real e geramos 606 tarefas abrangendo múltiplas categorias, objetivos e modalidades, demonstrando que o MLE-Smith pode funcionar efetivamente em uma ampla gama de conjuntos de dados do mundo real. A avaliação das tarefas geradas mostra que o desempenho de oito LLMs principais e de ponta nas tarefas do MLE-Smith está fortemente correlacionado com seu desempenho em tarefas cuidadosamente projetadas por humanos, destacando a eficácia do MLE-Smith para escalar tarefas de MLE, mantendo a qualidade das tarefas.
English
While Language Models (LMs) have made significant progress in automating
machine learning engineering (MLE), the acquisition of high-quality MLE
training data is significantly constrained. Current MLE benchmarks suffer from
low scalability and limited applicability because they rely on static, manually
curated tasks, demanding extensive time and manual effort to produce. We
introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw
datasets into competition-style MLE challenges through an efficient
generate-verify-execute paradigm for scaling MLE tasks with verifiable quality,
real-world usability, and rich diversity. The proposed multi-agent pipeline in
MLE-Smith drives structured task design and standardized refactoring, coupled
with a hybrid verification mechanism that enforces strict structural rules and
high-level semantic soundness. It further validates empirical solvability and
real-world fidelity through interactive execution. We apply MLE-Smith to 224 of
real-world datasets and generate 606 tasks spanning multiple categories,
objectives, and modalities, demonstrating that MLE-Smith can work effectively
across a wide range of real-world datasets. Evaluation on the generated tasks
shows that the performance of eight mainstream and cutting-edge LLMs on
MLE-Smith tasks is strongly correlated with their performance on carefully
human-designed tasks, highlighting the effectiveness of the MLE-Smith to
scaling up MLE tasks, while maintaining task quality.