ChatPaper.aiChatPaper

Kunnen we voorspellen voordat we machine learning-agenten uitvoeren?

Can We Predict Before Executing Machine Learning Agents?

January 9, 2026
Auteurs: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI

Samenvatting

Autonome machine learning-agents hebben een revolutie teweeggebracht in wetenschappelijke ontdekkingen, maar blijven beperkt door een Generate-Execute-Feedback-paradigma. Eerdere methoden kampen met een ernstig *Execution Bottleneck*, omdat de evaluatie van hypothesen strikt afhankelijk is van dure fysieke uitvoering. Om deze fysieke beperkingen te omzeilen, internaliseren wij uitvoeringspriors om kostbare runtime-controles te vervangen door directe voorspellende redenering, geïnspireerd door *World Models*. In dit werk formaliseren wij de taak van *Data-centric Solution Preference* en construeren een uitgebreid corpus van 18.438 paarsgewijze vergelijkingen. Wij tonen aan dat *LLM's* significante voorspellende capaciteiten vertonen wanneer zij worden geprimed met een geverifieerd data-analyseverslag, met een nauwkeurigheid van 61,5% en robuuste kalibratie van betrouwbaarheid. Ten slotte implementeren wij dit raamwerk in FOREAGENT, een agent die een *Predict-then-Verify*-lus hanteert, wat een 6x versnelling in convergentie oplevert terwijl hij op uitvoering gebaseerde *baselines* met +6% overtreft. Onze code en dataset zullen binnenkort openbaar beschikbaar zijn op https://github.com/zjunlp/predict-before-execute.
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.
PDF252January 16, 2026