MLE-Smith: Schaalvergroting van MLE-taken met een geautomatiseerde multi-agent pijplijn

Samenvatting

Hoewel taalmodellen (Language Models, LMs) aanzienlijke vooruitgang hebben geboekt in het automatiseren van machine learning engineering (MLE), blijft de verwerving van hoogwaardige MLE-trainingsdata aanzienlijk beperkt. Huidige MLE-benchmarks kampen met een lage schaalbaarheid en beperkte toepasbaarheid omdat ze afhankelijk zijn van statische, handmatig samengestelde taken, die veel tijd en handmatige inspanning vergen om te produceren. Wij introduceren MLE-Smith, een volledig geautomatiseerde multi-agent pijplijn, om ruwe datasets om te zetten in competitie-achtige MLE-uitdagingen via een efficiënt genereer-verifieer-uitvoer paradigma voor het schalen van MLE-taken met verifieerbare kwaliteit, real-world bruikbaarheid en rijke diversiteit. De voorgestelde multi-agent pijplijn in MLE-Smith stimuleert gestructureerde taakontwerpen en gestandaardiseerd refactoren, gekoppeld aan een hybride verificatiemechanisme dat strikte structurele regels en hoogwaardige semantische correctheid afdwingt. Het valideert verder empirische oplosbaarheid en real-world betrouwbaarheid door interactieve uitvoering. We passen MLE-Smith toe op 224 real-world datasets en genereren 606 taken die meerdere categorieën, doelstellingen en modaliteiten omvatten, wat aantoont dat MLE-Smith effectief kan werken over een breed scala aan real-world datasets. Evaluatie van de gegenereerde taken toont aan dat de prestaties van acht mainstream en state-of-the-art LLMs op MLE-Smith taken sterk gecorreleerd zijn met hun prestaties op zorgvuldig door mensen ontworpen taken, wat de effectiviteit van MLE-Smith benadrukt voor het opschalen van MLE-taken, terwijl de taakkwaliteit behouden blijft.

English

While Language Models (LMs) have made significant progress in automating machine learning engineering (MLE), the acquisition of high-quality MLE training data is significantly constrained. Current MLE benchmarks suffer from low scalability and limited applicability because they rely on static, manually curated tasks, demanding extensive time and manual effort to produce. We introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw datasets into competition-style MLE challenges through an efficient generate-verify-execute paradigm for scaling MLE tasks with verifiable quality, real-world usability, and rich diversity. The proposed multi-agent pipeline in MLE-Smith drives structured task design and standardized refactoring, coupled with a hybrid verification mechanism that enforces strict structural rules and high-level semantic soundness. It further validates empirical solvability and real-world fidelity through interactive execution. We apply MLE-Smith to 224 of real-world datasets and generate 606 tasks spanning multiple categories, objectives, and modalities, demonstrating that MLE-Smith can work effectively across a wide range of real-world datasets. Evaluation on the generated tasks shows that the performance of eight mainstream and cutting-edge LLMs on MLE-Smith tasks is strongly correlated with their performance on carefully human-designed tasks, highlighting the effectiveness of the MLE-Smith to scaling up MLE tasks, while maintaining task quality.

MLE-Smith: Schaalvergroting van MLE-taken met een geautomatiseerde multi-agent pijplijn

MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

Samenvatting

Support