MLE-Smith : Mise à l'échelle des tâches MLE avec un pipeline multi-agent automatisé

papers.abstract

Bien que les modèles de langage (LMs) aient réalisé des progrès significatifs dans l'automatisation de l'ingénierie du machine learning (MLE), l'acquisition de données d'entraînement de haute qualité pour le MLE reste fortement limitée. Les benchmarks actuels en MLE souffrent d'une faible évolutivité et d'une applicabilité restreinte, car ils reposent sur des tâches statiques et manuellement sélectionnées, nécessitant un temps considérable et un effort manuel important pour être produites. Nous présentons MLE-Smith, un pipeline multi-agent entièrement automatisé, conçu pour transformer des jeux de données bruts en défis de style compétition pour le MLE, grâce à un paradigme efficace de génération-vérification-exécution, permettant de mettre à l'échelle les tâches de MLE avec une qualité vérifiable, une utilité dans le monde réel et une grande diversité. Le pipeline multi-agent proposé dans MLE-Smith favorise une conception structurée des tâches et un refactoring standardisé, couplé à un mécanisme de vérification hybride qui impose des règles structurelles strictes et une cohérence sémantique de haut niveau. Il valide en outre la résolvabilité empirique et la fidélité au monde réel grâce à une exécution interactive. Nous appliquons MLE-Smith à 224 jeux de données réels et générons 606 tâches couvrant plusieurs catégories, objectifs et modalités, démontrant ainsi que MLE-Smith peut fonctionner efficacement sur une large gamme de jeux de données réels. L'évaluation des tâches générées montre que la performance de huit LMs principaux et de pointe sur les tâches de MLE-Smith est fortement corrélée à leur performance sur des tâches soigneusement conçues par des humains, soulignant l'efficacité de MLE-Smith pour mettre à l'échelle les tâches de MLE tout en maintenant la qualité des tâches.

English

While Language Models (LMs) have made significant progress in automating machine learning engineering (MLE), the acquisition of high-quality MLE training data is significantly constrained. Current MLE benchmarks suffer from low scalability and limited applicability because they rely on static, manually curated tasks, demanding extensive time and manual effort to produce. We introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw datasets into competition-style MLE challenges through an efficient generate-verify-execute paradigm for scaling MLE tasks with verifiable quality, real-world usability, and rich diversity. The proposed multi-agent pipeline in MLE-Smith drives structured task design and standardized refactoring, coupled with a hybrid verification mechanism that enforces strict structural rules and high-level semantic soundness. It further validates empirical solvability and real-world fidelity through interactive execution. We apply MLE-Smith to 224 of real-world datasets and generate 606 tasks spanning multiple categories, objectives, and modalities, demonstrating that MLE-Smith can work effectively across a wide range of real-world datasets. Evaluation on the generated tasks shows that the performance of eight mainstream and cutting-edge LLMs on MLE-Smith tasks is strongly correlated with their performance on carefully human-designed tasks, highlighting the effectiveness of the MLE-Smith to scaling up MLE tasks, while maintaining task quality.

MLE-Smith : Mise à l'échelle des tâches MLE avec un pipeline multi-agent automatisé

MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

papers.abstract

Support