기계 학습 에이전트를 실행하기 전에 예측할 수 있을까요?
Can We Predict Before Executing Machine Learning Agents?
January 9, 2026
저자: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI
초록
자율 기계 학습 에이전트는 과학적 발견을 혁신적으로 변화시켰으나, 여전히 '생성-실행-피드백' 패러다임에 제약을 받고 있습니다. 기존 접근법은 가설 검증이 비용이 큰 물리적 실행에 엄격히 의존함에 따라 심각한 실행 병목 현상을 겪어왔습니다. 이러한 물리적 제약을 극복하기 위해 우리는 월드 모델에서 영감을 얻어, 비용이 많이 드는 런타임 검증을 즉각적인 예측적 추론으로 대체하기 위해 실행 사전 지식을 내재화했습니다. 본 연구에서는 데이터 중심 솔루션 선호도 과제를 정형화하고 18,438개의 pairwise 비교로 구성된 포괄적인 코퍼스를 구축했습니다. 검증된 데이터 분석 보고서를 프라이밍한 LLM이 61.5%의 정확도와 강건한 신뢰도 보정을 달성하며 상당한 예측 능력을 보임을 입증했습니다. 마지막으로 '예측 후 검증' 루프를 활용하는 FOREAGENT 에이전트에 이 프레임워크를 구현하여 기존 대비 6배 빠른 수렴 속도와 실행 기반 베이스라인 대비 +6% 향상된 성능을 달성했습니다. 코드와 데이터 세트는 https://github.com/zjunlp/predict-before-execute에서 공개될 예정입니다.
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.