Het Afstemmen van Agentische Wereldmodellen via Kennisrijke Ervaringsleren
Aligning Agentic World Models via Knowledgeable Experience Learning
January 19, 2026
Auteurs: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI
Samenvatting
Huidige grootschalige taalmodelmodellen (LLM's) vertonen een kritieke modale kloof: ze beschikken over uitgebreide semantische kennis, maar missen de procedurele verankering om de onveranderlijke wetten van de fysieke wereld te respecteren. Hierdoor functioneren deze agents impliciet weliswaar als wereldmodellen, maar lijden hun simulaties vaak aan fysieke hallucinaties – ze genereren plannen die logisch consistent zijn, maar fysiek onuitvoerbaar. Bestaande afstemmingsstrategieën zijn voornamelijk gebaseerd op resource-intensieve training of fine-tuning, waarbij geprobeerd wordt dynamische omgevingsregels te comprimeren tot statische modelparameters. Deze parametrische encapsulatie is echter inherent rigide en kan moeilijk omgaan met de open-eindige variabiliteit van fysieke dynamieken zonder continue, kostbare hertraining. Om deze kloof te overbruggen, introduceren we WorldMind, een raamwerk dat autonoom een symbolische Wereldkenniskennisbank construeert door omgevingsfeedback te synthetiseren. Concreet verenigt het Proceservaring om fysieke haalbaarheid af te dwingen via voorspellingsfouten en Doelervaring om taakoptimaliteit te sturen via succesvolle trajecten. Experimenten op EB-ALFRED en EB-Habitat tonen aan dat WorldMind superieure prestaties bereikt in vergelijking met baseline-methoden, met opmerkelijke overdraagbaarheid tussen modellen en omgevingen.
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.