ChatPaper.aiChatPaper

Können wir das Verhalten von KI-Agenten vor der Ausführung vorhersagen?

Can We Predict Before Executing Machine Learning Agents?

January 9, 2026
papers.authors: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI

papers.abstract

Autonome maschinelle Lernagenten haben die wissenschaftliche Entdeckung revolutioniert, bleiben jedoch durch ein Generiere-Führe-Rückmeldung-Paradigma eingeschränkt. Bisherige Ansätze leiden unter einem gravierenden Ausführungsengpass, da die Hypothesenbewertung strikt auf kostspieliger physischer Ausführung beruht. Um diese physischen Beschränkungen zu umgehen, internalisieren wir Ausführungspriors, um teure Laufzeitprüfungen durch sofortiges prädiktives Schließen zu ersetzen, inspiriert von World Models. In dieser Arbeit formalisieren wir die Aufgabe der datenzentrierten Lösungspräferenz und erstellen einen umfassenden Korpus mit 18.438 paarweisen Vergleichen. Wir zeigen, dass LLMs signifikante prädiktive Fähigkeiten aufweisen, wenn sie mit einem verifizierten Datenanalysebericht vorbereitet werden, und erreichen dabei eine Genauigkeit von 61,5 % sowie eine robuste Konfidenzkalibrierung. Schließlich instanziieren wir diesen Rahmen in FOREAGENT, einem Agenten, der eine Prädiziere-dann-Prüfe-Schleife einsetzt und eine 6-fache Beschleunigung der Konvergenz erreicht, während er ausführungsbasierte Baseline-Methoden um +6 % übertrifft. Unser Code und Datensatz werden demnächst unter https://github.com/zjunlp/predict-before-execute öffentlich verfügbar sein.
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.
PDF191January 13, 2026