Possiamo Prevedere Prima di Eseguire Agenti di Apprendimento Automatico?

Abstract

Gli agenti autonomi di apprendimento automatico hanno rivoluzionato la scoperta scientifica, ma rimangono vincolati a un paradigma di Generazione-Esecuzione-Feedback. Gli approcci precedenti soffrono di un severo Collo di Bottiglia Esecutivo, poiché la valutazione delle ipotesi dipende rigorosamente da costose esecuzioni fisiche. Per superare questi vincoli fisici, internalizziamo priorità esecutive per sostituire controlli runtime costosi con ragionamenti predittivi istantanei, traendo ispirazione dai Modelli del Mondo. In questo lavoro, formalizziamo il compito della Preferenza di Soluzione Data-centric e costruiamo un corpus completo di 18.438 confronti a coppie. Dimostriamo che i LLM mostrano capacità predittive significative quando preparati con un Report di Analisi Dati Verificato, raggiungendo un'accuratezza del 61,5% e una robusta calibrazione della confidenza. Infine, implementiamo questo framework in FOREAGENT, un agente che utilizza un ciclo di Previsione-Verifica, ottenendo un'accelerazione di 6x nella convergenza superando i baseline basati sull'esecuzione del +6%. Il nostro codice e dataset saranno presto disponibili pubblicamente su https://github.com/zjunlp/predict-before-execute.

English

Autonomous machine learning agents have revolutionized scientific discovery, yet they remain constrained by a Generate-Execute-Feedback paradigm. Previous approaches suffer from a severe Execution Bottleneck, as hypothesis evaluation relies strictly on expensive physical execution. To bypass these physical constraints, we internalize execution priors to substitute costly runtime checks with instantaneous predictive reasoning, drawing inspiration from World Models. In this work, we formalize the task of Data-centric Solution Preference and construct a comprehensive corpus of 18,438 pairwise comparisons. We demonstrate that LLMs exhibit significant predictive capabilities when primed with a Verified Data Analysis Report, achieving 61.5% accuracy and robust confidence calibration. Finally, we instantiate this framework in FOREAGENT, an agent that employs a Predict-then-Verify loop, achieving a 6x acceleration in convergence while surpassing execution-based baselines by +6%. Our code and dataset will be publicly available soon at https://github.com/zjunlp/predict-before-execute.

Possiamo Prevedere Prima di Eseguire Agenti di Apprendimento Automatico?

Can We Predict Before Executing Machine Learning Agents?

Abstract

Support