ChatPaper.aiChatPaper

WorldPlay: 실시간 인터랙티브 세계 모델링을 위한 장기 기하학적 일관성 확보

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

December 16, 2025
저자: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo
cs.AI

초록

본 논문은 실시간 인터랙티브 월드 모델링과 장기 기하학적 일관성을 가능하게 하는 스트리밍 비디오 확산 모델인 WorldPlay를 제안한다. 이는 기존 방법론을 제한하던 속도와 메모리 간의 트레이드오프를 해결한다. WorldPlay는 세 가지 핵심 혁신에서 그 힘을 얻는다. 1) 사용자의 키보드 및 마우스 입력에 대한 강력한 액션 제어를 가능하게 하는 이중 액션 표현(Dual Action Representation)을 사용한다. 2) 장기 일관성을 확보하기 위해, 재구성 컨텍스트 메모리(Reconstituted Context Memory)가 과거 프레임으로부터 컨텍스트를 동적으로 재구축하고, 시간적 리프레이밍(temporal reframing)을 통해 기하학적으로 중요하지만 오래전의 프레임에 접근할 수 있게 하여 메모리 감쇠를 효과적으로 완화한다. 3) 또한 메모리 인식 모델을 위해 설계된 새로운 지식 증류 방법인 컨텍스트 강제(Context Forcing)를 제안한다. 교사 모델과 학생 모델 간의 메모리 컨텍스트를 정렬함으로써 학생 모델이 장거리 정보를 활용하는 능력을 보존하여, 실시간 속도를 달성하면서도 오류 드리프트(error drift)를 방지한다. 종합적으로, WorldPlay는 우수한 일관성으로 24 FPS의 720p 장기간 스트리밍 비디오를 생성하며, 이는 기존 기술과 비교하여 유리하고 다양한 장면에서 강력한 일반화 능력을 보여준다. 프로젝트 페이지와 온라인 데모는 https://3d-models.hunyuan.tencent.com/world/ 및 https://3d.hunyuan.tencent.com/sceneTo3D에서 확인할 수 있다.
English
This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.
PDF713February 7, 2026