ChatPaper.aiChatPaper

**지식 경험 학습을 통한 행위적 세계 모델 정렬**

Aligning Agentic World Models via Knowledgeable Experience Learning

January 19, 2026
저자: Baochang Ren, Yunzhi Yao, Rui Sun, Shuofei Qiao, Ningyu Zhang, Huajun Chen
cs.AI

초록

현재의 대규모 언어 모델(LLM)은 중요한 양식적 단절을 보입니다: 방대한 의미론적 지식을 보유하고 있지만, 물리적 세계의 불변의 법칙을 존중할 수 있는 절차적 토대가 결여되어 있습니다. 그 결과, 이러한 에이전트가 암묵적으로 세계 모델로서 기능함에도 불구하고, 그 시뮬레이션은 종종 물리적 환각(physical hallucination)을 겪습니다. 즉, 논리적으로는 타당하지만 물리적으로 실행 불가능한 계획을 생성하는 것입니다. 기존 정렬(alignment) 전략은 주로 자원 집약적인 학습 또는 미세 조정에 의존하며, 이는 동적인 환경 규칙을 정적인 모델 매개변수로 압축하려 시도합니다. 그러나 이러한 매개변수적 캡슐화는 본질적으로 경직되어 있어, 지속적이고 비용이 많이 드는 재학습 없이는 물리 역학의 개방형 변동성에 적응하는 데 어려움을 겪습니다. 이러한 격차를 해소하기 위해 우리는 환경 피드백을 종합하여 상징적 세계 지식 저장소(World Knowledge Repository)를 자율적으로 구축하는 WorldMind 프레임워크를 소개합니다. 구체적으로, 예측 오류를 통해 물리적 실행 가능성을 강제하는 과정 경험(Process Experience)과 성공적인 궤적을 통해 작업 최적성을 안내하는 목표 경험(Goal Experience)을 통합합니다. EB-ALFRED 및 EB-Habitat에서의 실험 결과, WorldMind가 기준 모델 대비 우수한 성능을 달성함과 동시에 놀라운 수준의 교차 모델 및 교차 환경 전이성을 보여줌을 확인했습니다.
English
Current Large Language Models (LLMs) exhibit a critical modal disconnect: they possess vast semantic knowledge but lack the procedural grounding to respect the immutable laws of the physical world. Consequently, while these agents implicitly function as world models, their simulations often suffer from physical hallucinations-generating plans that are logically sound but physically unexecutable. Existing alignment strategies predominantly rely on resource-intensive training or fine-tuning, which attempt to compress dynamic environmental rules into static model parameters. However, such parametric encapsulation is inherently rigid, struggling to adapt to the open-ended variability of physical dynamics without continuous, costly retraining. To bridge this gap, we introduce WorldMind, a framework that autonomously constructs a symbolic World Knowledge Repository by synthesizing environmental feedback. Specifically, it unifies Process Experience to enforce physical feasibility via prediction errors and Goal Experience to guide task optimality through successful trajectories. Experiments on EB-ALFRED and EB-Habitat demonstrate that WorldMind achieves superior performance compared to baselines with remarkable cross-model and cross-environment transferability.
PDF121January 22, 2026