ChatPaper.aiChatPaper

知識豊富な経験学習によるエージェンシック世界モデルの調整

Aligning Agentic World Models via Knowledgeable Experience Learning

January 19, 2026
著者: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI

要旨

現在の大規模言語モデル(LLM)は重大なモーダル分断を示している。すなわち、膨大な意味論的知識を有しながらも、物理世界の不変の法則を尊重するための手続き的基盤を欠いている。その結果、これらのエージェントは暗黙的に世界モデルとして機能するものの、そのシミュレーションはしばしば物理的幻覚(physical hallucinations)に悩まされる——論理的には妥当だが、物理的に実行不可能な計画を生成してしまうのである。既存のアライメント戦略は主に、リソースを大量に消費する訓練またはファインチューニングに依存しており、これらは動的な環境規則を静的なモデルパラメータに圧縮しようと試みる。しかし、そのようなパラメトリックな封じ込めは本質的に硬直的であり、継続的でコストのかかる再訓練なしには、物理ダイナミクスのオープンエンドな変動性に適応するのに苦労する。この隔たりを埋めるため、我々はWorldMindを提案する。これは環境フィードバックを統合することで記号的な世界知識リポジトリを自律的に構築するフレームワークである。具体的には、予測誤差を通じて物理的実現可能性を強制する「プロセス経験」と、成功軌跡を通じてタスクの最適性を導く「ゴール経験」を統合する。EB-ALFREDおよびEB-Habitatにおける実験により、WorldMindがベースラインと比較して優れた性能を達成し、顕著なクロスモデル・クロス環境転移性を示すことを実証した。
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.
PDF121January 22, 2026