ChatPaper.aiChatPaper

WorldWarp: Propagación de Geometría 3D con Difusión de Video Asíncrona

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

December 22, 2025
Autores: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI

Resumen

La generación de vídeos con coherencia geométrica a largo plazo presenta un dilema fundamental: mientras que la coherencia exige una estricta adherencia a la geometría 3D en el espacio de píxeles, los modelos generativos de vanguardia operan de manera más efectiva en un espacio latente condicionado por la cámara. Esta desconexión hace que los métodos actuales tengan dificultades con áreas ocluidas y trayectorias complejas de cámara. Para cerrar esta brecha, proponemos WorldWarp, un marco que acopla un anclaje estructural 3D con un refinador generativo 2D. Para establecer una base geométrica, WorldWarp mantiene una caché geométrica 3D en línea construida mediante *Gaussian Splatting* (3DGS). Al deformar explícitamente el contenido histórico hacia nuevas vistas, esta caché actúa como un andamiaje estructural, asegurando que cada nuevo fotograma respete la geometría previa. Sin embargo, la deformación estática inevitablemente deja huecos y artefactos debido a las oclusiones. Abordamos esto utilizando un modelo de Difusión Espacio-Temporal (ST-Diff) diseñado para un objetivo de "rellenar y revisar". Nuestra innovación clave es un programa de ruido espacio-temporal variable: las regiones en blanco reciben ruido completo para desencadenar la generación, mientras que las regiones deformadas reciben ruido parcial para permitir el refinamiento. Al actualizar dinámicamente la caché 3D en cada paso, WorldWarp mantiene la coherencia a lo largo de fragmentos de vídeo. En consecuencia, logra una fidelidad de vanguardia al garantizar que la lógica 3D guíe la estructura mientras la lógica de difusión perfecciona la textura. Página del proyecto: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.
PDF202December 24, 2025