WorldPlay: Rumo à Consistência Geométrica de Longo Prazo para Modelagem Interativa do Mundo em Tempo Real

Resumo

Este artigo apresenta o WorldPlay, um modelo de difusão de vídeo em streaming que permite a modelagem de mundo interativa em tempo real com consistência geométrica de longo prazo, resolvendo o compromisso entre velocidade e memória que limita os métodos atuais. O WorldPlay obtém seu poder de três inovações principais. 1) Utilizamos uma Representação de Ação Dupla para permitir um controle de ação robusto em resposta às entradas do teclado e mouse do usuário. 2) Para impor a consistência de longo prazo, nossa Memória de Contexto Reconstituída reconstrói dinamicamente o contexto a partir de quadros passados e usa um reenquadramento temporal para manter acessíveis quadros geometricamente importantes, mas há muito tempo passados, aliviando efetivamente a atenuação da memória. 3) Também propomos o Context Forcing, um novo método de destilação projetado para modelos conscientes da memória. Alinhar o contexto de memória entre o professor e o aluno preserva a capacidade do aluno de usar informações de longo alcance, permitindo velocidades em tempo real enquanto previne a deriva de erro. Em conjunto, o WorldPlay gera vídeo em streaming 720p de longo horizonte a 24 FPS com consistência superior, comparando-se favoravelmente com as técnicas existentes e mostrando forte generalização em diversas cenas. A página do projeto e a demonstração online podem ser encontradas em: https://3d-models.hunyuan.tencent.com/world/ e https://3d.hunyuan.tencent.com/sceneTo3D.

English

This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

WorldPlay: Rumo à Consistência Geométrica de Longo Prazo para Modelagem Interativa do Mundo em Tempo Real

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Resumo

Support