Можем ли мы предсказать поведение машинного обучения до его выполнения?
Can We Predict Before Executing Machine Learning Agents?
January 9, 2026
Авторы: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI
Аннотация
Автономные агенты машинного обучения произвели революцию в научных открытиях, однако они по-прежнему ограничены парадигмой «Генерация-Выполнение-Обратная связь». Предыдущие подходы страдают от серьезного «узкого места выполнения», поскольку оценка гипотез строго зависит от дорогостоящего физического выполнения. Чтобы обойти эти физические ограничения, мы интернализуем априорные знания о выполнении, заменяя затратные проверки во время выполнения мгновенным прогностическим рассуждением, черпая вдохновение из Мировых Моделей. В данной работе мы формализуем задачу Предпочтения Решений, ориентированного на данные, и создаем комплексный корпус из 18 438 парных сравнений. Мы демонстрируем, что большие языковые модели проявляют значительные прогностические способности, когда им предоставляется Верифицированный отчет об анализе данных, достигая точности 61,5% и надежной калибровки уверенности. Наконец, мы реализуем эту концепцию в агенте FOREAGENT, который использует цикл «Предсказать-Затем-Проверить», достигая 6-кратного ускорения сходимости и превосходя базовые методы, основанные на выполнении, на +6%. Наш код и набор данных скоро будут общедоступны по адресу https://github.com/zjunlp/predict-before-execute.
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.