MLE-Smith: Skalierung von MLE-Aufgaben mit einer automatisierten Multi-Agenten-Pipeline
MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
October 8, 2025
papers.authors: Rushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai
cs.AI
papers.abstract
Während Sprachmodelle (LMs) bedeutende Fortschritte bei der Automatisierung des maschinellen Lernens (MLE) gemacht haben, ist die Beschaffung von hochwertigen MLE-Trainingsdaten erheblich eingeschränkt. Aktuelle MLE-Benchmarks leiden unter geringer Skalierbarkeit und begrenzter Anwendbarkeit, da sie auf statischen, manuell kuratierten Aufgaben basieren, deren Erstellung viel Zeit und manuellen Aufwand erfordert. Wir stellen MLE-Smith vor, eine vollständig automatisierte Multi-Agenten-Pipeline, die Rohdatensätze in wettbewerbsartige MLE-Herausforderungen transformiert, indem sie ein effizientes Generieren-Verifizieren-Ausführen-Paradigma nutzt, um MLE-Aufgaben mit überprüfbarer Qualität, realer Anwendbarkeit und großer Vielfalt zu skalieren. Die vorgeschlagene Multi-Agenten-Pipeline in MLE-Smith fördert strukturierte Aufgabenentwürfe und standardisierte Refaktorierung, gekoppelt mit einem hybriden Verifizierungsmechanismus, der strenge strukturelle Regeln und semantische Korrektheit auf hohem Niveau durchsetzt. Sie validiert zudem empirische Lösbarkeit und reale Treue durch interaktive Ausführung. Wir wenden MLE-Smith auf 224 reale Datensätze an und generieren 606 Aufgaben, die mehrere Kategorien, Ziele und Modalitäten abdecken, was zeigt, dass MLE-Smith effektiv über eine breite Palette realer Datensätze hinweg arbeiten kann. Die Bewertung der generierten Aufgaben zeigt, dass die Leistung von acht Mainstream- und Spitzen-LLMs auf MLE-Smith-Aufgaben stark mit ihrer Leistung auf sorgfältig von Menschen entworfenen Aufgaben korreliert, was die Effektivität von MLE-Smith bei der Skalierung von MLE-Aufgaben unter Beibehaltung der Aufgabenqualität unterstreicht.
English
While Language Models (LMs) have made significant progress in automating
machine learning engineering (MLE), the acquisition of high-quality MLE
training data is significantly constrained. Current MLE benchmarks suffer from
low scalability and limited applicability because they rely on static, manually
curated tasks, demanding extensive time and manual effort to produce. We
introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw
datasets into competition-style MLE challenges through an efficient
generate-verify-execute paradigm for scaling MLE tasks with verifiable quality,
real-world usability, and rich diversity. The proposed multi-agent pipeline in
MLE-Smith drives structured task design and standardized refactoring, coupled
with a hybrid verification mechanism that enforces strict structural rules and
high-level semantic soundness. It further validates empirical solvability and
real-world fidelity through interactive execution. We apply MLE-Smith to 224 of
real-world datasets and generate 606 tasks spanning multiple categories,
objectives, and modalities, demonstrating that MLE-Smith can work effectively
across a wide range of real-world datasets. Evaluation on the generated tasks
shows that the performance of eight mainstream and cutting-edge LLMs on
MLE-Smith tasks is strongly correlated with their performance on carefully
human-designed tasks, highlighting the effectiveness of the MLE-Smith to
scaling up MLE tasks, while maintaining task quality.