ChatPaper.aiChatPaper

단어에서 세계로: 대규모 언어 모델은 암묵적인 텍스트 기반 세계 모델이 될 수 있을까?

From Word to World: Can Large Language Models be Implicit Text-based World Models?

December 21, 2025
저자: Yixia Li, Hongru Wang, Jiahao Qiu, Zhenfei Yin, Dongdong Zhang, Cheng Qian, Zeping Li, Pony Ma, Guanhua Chen, Heng Ji, Mengdi Wang
cs.AI

초록

에이전트 강화 학습은 경험 기반 확장에 점점 더 의존하고 있지만, 실제 환경은 비적응적이며 커버리지가 제한적이고 확장하기 어렵습니다. 세계 모델은 시뮬레이션된 경험을 통해 학습 효율성을 향상시킬 수 있는 잠재적 방법을 제공하지만, 대규모 언어 모델이 이 역할을 안정적으로 수행할 수 있는지, 그리고 어떤 조건에서 에이전트에 의미 있는 이점을 제공하는지는 여전히 불분명합니다. 우리는 상호작용 하의 다음 상태 예측으로 언어 모델링을 재해석할 수 있는 통제된 환경을 제공하는 텍스트 기반 환경에서 이러한 문제를 연구합니다. 우리는 LLM 기반 세계 모델을 평가하기 위한 3단계 프레임워크를 소개합니다: (i) 정확도와 일관성, (ii) 확장성과 견고성, (iii) 에이전트 효용성. 5가지 대표 환경에서 충분히 훈련된 세계 모델이 일관된 잠재 상태를 유지하며, 데이터 및 모델 크기에 따라 예측 가능하게 확장되고, 행동 검증, 합성 궤적 생성 및 강화 학습 웜 스타트를 통해 에이전트 성능을 향상시킨다는 것을 발견했습니다. 한편, 이러한 이득은 행동 커버리지와 환경 복잡성에 크게 의존하여 세계 모델링이 에이전트 학습을 효과적으로 지원하는 시점에 대한 명확한 경계를 delineate합니다.
English
Agentic reinforcement learning increasingly relies on experience-driven scaling, yet real-world environments remain non-adaptive, limited in coverage, and difficult to scale. World models offer a potential way to improve learning efficiency through simulated experience, but it remains unclear whether large language models can reliably serve this role and under what conditions they meaningfully benefit agents. We study these questions in text-based environments, which provide a controlled setting to reinterpret language modeling as next-state prediction under interaction. We introduce a three-level framework for evaluating LLM-based world models: (i) fidelity and consistency, (ii) scalability and robustness, and (iii) agent utility. Across five representative environments, we find that sufficiently trained world models maintain coherent latent state, scale predictably with data and model size, and improve agent performance via action verification, synthetic trajectory generation, and warm-starting reinforcement learning. Meanwhile, these gains depend critically on behavioral coverage and environment complexity, delineating clear boundry on when world modeling effectively supports agent learning.
PDF71December 26, 2025