ChatPaper.aiChatPaper

Alignement des modèles du monde agentiques par apprentissage expérientiel informé

Aligning Agentic World Models via Knowledgeable Experience Learning

January 19, 2026
papers.authors: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI

papers.abstract

Les grands modèles de langage (LLM) actuels présentent une déconnexion modale critique : ils possèdent de vastes connaissances sémantiques mais manquent d'ancrage procédural pour respecter les lois immuables du monde physique. Par conséquent, bien que ces agents fonctionnent implicitement comme des modèles du monde, leurs simulations souffrent souvent d'hallucinations physiques - générant des plans logiquement cohérents mais physiquement inexécutables. Les stratégies d'alignement existantes reposent principalement sur des entraînements ou des ajustements fins intensifs en ressources, qui tentent de compresser des règles environnementales dynamiques en paramètres modèles statiques. Cependant, un tel encapsulage paramétrique est intrinsèquement rigide, peinant à s'adapter à la variabilité ouverte des dynamiques physiques sans réentraînement continu et coûteux. Pour combler cette lacune, nous présentons WorldMind, un cadre qui construit autonome-ment un Référentiel de Connaissances Mondiales symbolique en synthétisant les retours environnementaux. Spécifiquement, il unifie l'Expérience de Processus pour imposer la faisabilité physique via les erreurs de prédiction, et l'Expérience de But pour guider l'optimalité des tâches à travers les trajectoires réussies. Les expériences sur EB-ALFRED et EB-Habitat démontrent que WorldMind atteint des performances supérieures aux lignes de base avec une transférabilité remarquable entre modèles et environnements.
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.
PDF121January 22, 2026