MLE-Smith: Schaalvergroting van MLE-taken met een geautomatiseerde multi-agent pijplijn
MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
October 8, 2025
Auteurs: Rushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai
cs.AI
Samenvatting
Hoewel taalmodellen (Language Models, LMs) aanzienlijke vooruitgang hebben geboekt in het automatiseren van machine learning engineering (MLE), blijft de verwerving van hoogwaardige MLE-trainingsdata aanzienlijk beperkt. Huidige MLE-benchmarks kampen met een lage schaalbaarheid en beperkte toepasbaarheid omdat ze afhankelijk zijn van statische, handmatig samengestelde taken, die veel tijd en handmatige inspanning vergen om te produceren. Wij introduceren MLE-Smith, een volledig geautomatiseerde multi-agent pijplijn, om ruwe datasets om te zetten in competitie-achtige MLE-uitdagingen via een efficiënt genereer-verifieer-uitvoer paradigma voor het schalen van MLE-taken met verifieerbare kwaliteit, real-world bruikbaarheid en rijke diversiteit. De voorgestelde multi-agent pijplijn in MLE-Smith stimuleert gestructureerde taakontwerpen en gestandaardiseerd refactoren, gekoppeld aan een hybride verificatiemechanisme dat strikte structurele regels en hoogwaardige semantische correctheid afdwingt. Het valideert verder empirische oplosbaarheid en real-world betrouwbaarheid door interactieve uitvoering. We passen MLE-Smith toe op 224 real-world datasets en genereren 606 taken die meerdere categorieën, doelstellingen en modaliteiten omvatten, wat aantoont dat MLE-Smith effectief kan werken over een breed scala aan real-world datasets. Evaluatie van de gegenereerde taken toont aan dat de prestaties van acht mainstream en state-of-the-art LLMs op MLE-Smith taken sterk gecorreleerd zijn met hun prestaties op zorgvuldig door mensen ontworpen taken, wat de effectiviteit van MLE-Smith benadrukt voor het opschalen van MLE-taken, terwijl de taakkwaliteit behouden blijft.
English
While Language Models (LMs) have made significant progress in automating
machine learning engineering (MLE), the acquisition of high-quality MLE
training data is significantly constrained. Current MLE benchmarks suffer from
low scalability and limited applicability because they rely on static, manually
curated tasks, demanding extensive time and manual effort to produce. We
introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw
datasets into competition-style MLE challenges through an efficient
generate-verify-execute paradigm for scaling MLE tasks with verifiable quality,
real-world usability, and rich diversity. The proposed multi-agent pipeline in
MLE-Smith drives structured task design and standardized refactoring, coupled
with a hybrid verification mechanism that enforces strict structural rules and
high-level semantic soundness. It further validates empirical solvability and
real-world fidelity through interactive execution. We apply MLE-Smith to 224 of
real-world datasets and generate 606 tasks spanning multiple categories,
objectives, and modalities, demonstrating that MLE-Smith can work effectively
across a wide range of real-world datasets. Evaluation on the generated tasks
shows that the performance of eight mainstream and cutting-edge LLMs on
MLE-Smith tasks is strongly correlated with their performance on carefully
human-designed tasks, highlighting the effectiveness of the MLE-Smith to
scaling up MLE tasks, while maintaining task quality.