Allineamento di Modelli del Mondo Agente attraverso l'Apprendimento da Esperienze Informate

Abstract

Gli attuali Large Language Model (LLM) mostrano una fondamentale disconnessione modale: possiedono una vasta conoscenza semantica ma mancano di un ancoraggio procedurale per rispettare le leggi immutabili del mondo fisico. Di conseguenza, sebbene questi agenti funzionino implicitamente come modelli del mondo, le loro simulazioni sono spesso affette da allucinazioni fisiche, generando piani logicamente solidi ma fisicamente ineseguibili. Le strategie di allineamento esistenti si basano prevalentemente su addestramenti o messe a punto ad alta intensità di risorse, che tentano di comprimere regole ambientali dinamiche in parametri modelli statici. Tuttavia, tale incapsulamento parametrico è intrinsecamente rigido, e fatica ad adattarsi alla variabilità aperta delle dinamiche fisiche senza una costosa e continua ri-istruzione. Per colmare questa lacuna, introduciamo WorldMind, un framework che costruisce autonomamente un Repository di Conoscenza Mondiale simbolico sintetizzando il feedback ambientale. Nello specifico, unifica l'Esperienza di Processo per imporre la fattibilità fisica tramite errori di previsione e l'Esperienza dell'Obiettivo per guidare l'ottimalità del compito attraverso traiettorie di successo. Esperimenti su EB-ALFRED e EB-Habitat dimostrano che WorldMind raggiunge prestazioni superiori rispetto ai baseline, con una notevole trasferibilità cross-modello e cross-ambiente.

English

Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.

Allineamento di Modelli del Mondo Agente attraverso l'Apprendimento da Esperienze Informate

Aligning Agentic World Models via Knowledgeable Experience Learning

Abstract

Support