ChatPaper.aiChatPaper

WorldPlay: Hacia la consistencia geométrica a largo plazo para el modelado interactivo del mundo en tiempo real

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

December 16, 2025
Autores: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo
cs.AI

Resumen

Este artículo presenta WorldPlay, un modelo de difusión de vídeo en streaming que permite el modelado de mundos interactivo en tiempo real con consistencia geométrica a largo plazo, resolviendo el compromiso entre velocidad y memoria que limita los métodos actuales. WorldPlay obtiene su potencia de tres innovaciones clave. 1) Utilizamos una Representación de Acción Dual para permitir un control de acciones robusto en respuesta a las entradas de teclado y ratón del usuario. 2) Para garantizar la consistencia a largo plazo, nuestra Memoria de Contexto Reconstituido reconstruye dinámicamente el contexto a partir de fotogramas pasados y utiliza el reencuadre temporal para mantener accesibles los fotogramas geométricamente importantes pero muy antiguos, aliviando eficazmente la atenuación de la memoria. 3) También proponemos Context Forcing, un novedoso método de destilación diseñado para modelos conscientes de la memoria. Alinear el contexto de la memoria entre el profesor y el estudiante preserva la capacidad del estudiante para utilizar información de largo alcance, permitiendo velocidades en tiempo real y evitando la deriva de errores. En conjunto, WorldPlay genera vídeo en streaming de larga duración a 720p y 24 FPS con una consistencia superior, comparándose favorablemente con las técnicas existentes y mostrando una fuerte generalización en diversas escenas. La página del proyecto y la demo en línea se pueden encontrar en: https://3d-models.hunyuan.tencent.com/world/ y https://3d.hunyuan.tencent.com/sceneTo3D.
English
This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.
PDF713February 7, 2026