WorldWarp: Propagação de Geometria 3D com Difusão Assíncrona de Vídeo
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
December 22, 2025
Autores: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI
Resumo
A geração de vídeos geometricamente consistentes em longa distância apresenta um dilema fundamental: embora a consistência exija uma adesão estrita à geometria 3D no espaço de píxeis, os modelos generativos de última geração operam com mais eficácia num espaço latente condicionado pela câmara. Esta desconexão faz com que os métodos atuais tenham dificuldades com áreas ocluídas e trajetórias complexas da câmara. Para colmatar esta lacuna, propomos o WorldWarp, uma estrutura que acopla uma âncora estrutural 3D com um refinador generativo 2D. Para estabelecer uma base geométrica, o WorldWarp mantém uma cache geométrica 3D online construída através de *Gaussian Splatting* (3DGS). Ao deformar explicitamente o conteúdo histórico para novas perspetivas, esta cache atua como um andaime estrutural, garantindo que cada novo *frame* respeita a geometria anterior. No entanto, a deformação estática deixa inevitavelmente buracos e artefactos devido a oclusões. Resolvemos isto usando um modelo de Difusão Espaço-Temporal (ST-Diff) concebido para um objetivo de "preencher e revisar". A nossa principal inovação é um esquema de ruído variável espaço-temporal: as regiões em branco recebem ruído total para desencadear a geração, enquanto as regiões deformadas recebem ruído parcial para permitir o refinamento. Ao atualizar dinamicamente a cache 3D em cada passo, o WorldWarp mantém a consistência entre os segmentos do vídeo. Consequentemente, atinge uma fidelidade de última geração ao garantir que a lógica 3D orienta a estrutura enquanto a lógica de difusão aperfeiçoa a textura. Página do projeto: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.