機械学習エージェントの実行前に予測は可能か?
Can We Predict Before Executing Machine Learning Agents?
January 9, 2026
著者: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI
要旨
自律機械学習エージェントは科学発見に革命をもたらしたが、未だに「生成-実行-フィードバック」パラダイムに制約されている。従来手法は、仮説評価が高コストな物理的実行に依存するため、深刻な実行ボトルネックに悩まされてきた。本研究では物理的制約を回避するため、World Modelsに着想を得て、実行に関する事前知識を内部化し、高コストな実行時チェックを瞬時の予測的推論に置き換える。我々はデータ中心の解選択課題を形式化し、18,438組のペアワイズ比較からなる包括的コーパスを構築した。検証済みデータ分析レポートを提示することで、LLMが61.5%の精度と頑健な信頼度較正を達成し、有意な予測能力を示すことを実証する。最後に、この枠組みをFOREAGENTとして具現化し、「予測-検証」ループを採用することで、収束速度を6倍加速させるとともに、実行ベースのベースラインを+6%上回る性能を達成した。コードとデータセットは近日中にhttps://github.com/zjunlp/predict-before-executeで公開予定である。
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.