Podemos Prever Antes de Executar Agentes de Aprendizado de Máquina?

Resumo

Os agentes autônomos de aprendizagem de máquina revolucionaram a descoberta científica, mas permanecem limitados por um paradigma Gerar-Executar-Feedback. Abordagens anteriores sofrem de um severo Gargalo de Execução, pois a avaliação de hipóteses depende estritamente de execução física dispendiosa. Para contornar estas restrições físicas, internalizamos *priors* de execução para substituir verificações custosas em tempo de execução por raciocínio preditivo instantâneo, inspirando-nos em *World Models*. Neste trabalho, formalizamos a tarefa de Preferência de Solução Centrada em Dados e construímos um corpus abrangente de 18.438 comparações pareadas. Demonstramos que os LLMs exibem capacidades preditivas significativas quando preparados com um Relatório de Análise de Dados Verificado, atingindo 61,5% de precisão e uma calibração de confiança robusta. Por fim, instanciamos esta estrutura no FOREAGENT, um agente que emprega um ciclo Prever-para-Verificar, alcançando uma aceleração de 6x na convergência enquanto supera as *baselines* baseadas em execução em +6%. O nosso código e conjunto de dados estarão publicamente disponíveis em breve em https://github.com/zjunlp/predict-before-execute.

English

Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.

Podemos Prever Antes de Executar Agentes de Aprendizado de Máquina?

Can We Predict Before Executing Machine Learning Agents?

Resumo

Support