ChatPaper.aiChatPaper

¿Podemos Predecir Antes de Ejecutar Agentes de Aprendizaje Automático?

Can We Predict Before Executing Machine Learning Agents?

January 9, 2026
Autores: Jingsheng Zheng, Jintian Zhang, Yujie Luo, Yuren Mao, Yunjun Gao, Lun Du, Huajun Chen, Ningyu Zhang
cs.AI

Resumen

Los agentes autónomos de aprendizaje automático han revolucionado el descubrimiento científico, pero siguen limitados por un paradigma de Generar-Ejecutar-Retroalimentación. Los enfoques anteriores adolecen de un severo Cuello de Botella en la Ejecución, ya que la evaluación de hipótesis depende estrictamente de una costosa ejecución física. Para superar estas limitaciones físicas, internalizamos *priors* de ejecución para sustituir las costosas comprobaciones en tiempo de ejecución con un razonamiento predictivo instantáneo, inspirándonos en los Modelos del Mundo. En este trabajo, formalizamos la tarea de Preferencia de Solución Centrada en Datos y construimos un corpus exhaustivo de 18,438 comparaciones por pares. Demostramos que los LLM exhiben capacidades predictivas significativas cuando se preparan con un Informe de Análisis de Datos Verificado, alcanzando un 61.5% de precisión y una robusta calibración de confianza. Finalmente, instanciamos este marco en FOREAGENT, un agente que emplea un bucle Predecir-y-Verificar, logrando una aceleración de 6x en la convergencia mientras supera a los baselines basados en ejecución en un +6%. Nuestro código y dataset estarán disponibles públicamente pronto en https://github.com/zjunlp/predict-before-execute.
English
Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.
PDF191January 13, 2026