Peut-on prédire avant d'exécuter les agents d'apprentissage automatique ?
Can We Predict Before Executing Machine Learning Agents?
January 9, 2026
papers.authors: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI
papers.abstract
Les agents autonomes d'apprentissage automatique ont révolutionné la découverte scientifique, mais ils restent contraints par un paradigme de Génération-Exécution-Rétroaction. Les approches antérieures souffrent d'un goulot d'étranglement sévère lors de l'exécution, car l'évaluation des hypothèses dépend strictement d'une exécution physique coûteuse. Pour contourner ces contraintes physiques, nous internalisons des connaissances a priori d'exécution afin de substituer aux vérifications runtime onéreuses un raisonnement prédictif instantané, en nous inspirant des modèles du monde. Dans ce travail, nous formalisons la tâche de Préférence de Solution Centrée sur les Données et construisons un corpus exhaustif de 18 438 comparaisons par paires. Nous démontrons que les grands modèles de langage présentent des capacités prédictives significatives lorsqu'ils sont amorcés avec un Rapport d'Analyse de Données Vérifié, atteignant une précision de 61,5 % et une calibration robuste de la confiance. Enfin, nous instancions ce cadre dans FOREAGENT, un agent qui emploie une boucle Prédire-puis-Vérifier, obtenant une accélération par 6 de la convergence tout en surpassant les méthodes de référence basées sur l'exécution de +6 %. Notre code et jeu de données seront bientôt disponibles publiquement à l'adresse https://github.com/zjunlp/predict-before-execute.
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.