ChatPaper.aiChatPaper

Ausrichtung agentischer Weltmodelle durch wissensbasiertes Erfahrungslernen

Aligning Agentic World Models via Knowledgeable Experience Learning

January 19, 2026
papers.authors: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI

papers.abstract

Aktuelle Large Language Models (LLMs) weisen eine kritische modale Diskrepanz auf: Sie verfügen über umfangreiches semantisches Wissen, aber es fehlt ihnen an prozeduraler Verankerung, um die unveränderlichen Gesetze der physischen Welt zu berücksichtigen. Infolgedessen, obwohl diese Agenten implizit als Weltmodelle fungieren, leiden ihre Simulationen häufig unter physikalischen Halluzinationen – sie erzeugen Pläne, die logisch schlüssig, aber physikalisch nicht ausführbar sind. Bestehende Alignment-Strategien stützen sich überwiegend auf ressourcenintensives Training oder Fine-Tuning, das versucht, dynamische Umweltregeln in statische Modellparameter zu komprimieren. Eine solche parametrische Kapselung ist jedoch von Natur aus starr und kann sich ohne kontinuierliches, kostspieliges Neutraining nur schwer der unbegrenzten Variabilität physikalischer Dynamiken anpassen. Um diese Lücke zu schließen, stellen wir WorldMind vor, ein Framework, das autonom ein symbolisches Weltwissens-Repository durch die Synthese von Umweltfeedback aufbaut. Konkret vereinheitlicht es Prozesserfahrung, um physikalische Machbarkeit via Vorhersagefehler durchzusetzen, und Zielderfahrung, um Aufgabenoptimalität durch erfolgreiche Trajektorien zu steuern. Experimente auf EB-ALFRED und EB-Habitat demonstrieren, dass WorldMind eine überlegene Leistung im Vergleich zu Baseline-Modellen erreicht und dabei bemerkenswerte Cross-Model- und Cross-Environment-Übertragbarkeit aufweist.
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.
PDF121January 22, 2026