WorldWarp : Propagation de géométrie 3D avec une diffusion vidéo asynchrone
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
December 22, 2025
papers.authors: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI
papers.abstract
La génération de vidéos à longue portée et géométriquement cohérentes présente un dilemme fondamental : si la cohérence exige une adhérence stricte à la géométrie 3D dans l'espace des pixels, les modèles génératifs de pointe opèrent plus efficacement dans un espace latent conditionné par la caméra. Cette déconnexion amène les méthodes actuelles à éprouver des difficultés avec les zones occluses et les trajectoires complexes de la caméra. Pour combler cet écart, nous proposons WorldWarp, un cadre qui couple une ancre structurelle 3D avec un raffineur génératif 2D. Pour établir un ancrage géométrique, WorldWarp maintient un cache géométrique 3D en ligne construit via Gaussian Splatting (3DGS). En déformant explicitement le contenu historique dans de nouvelles vues, ce cache sert d'échafaudage structurel, garantissant que chaque nouvelle image respecte la géométrie antérieure. Cependant, la déformation statique laisse inévitablement des trous et des artéfacts dus aux occlusions. Nous résolvons ce problème à l'aide d'un modèle de diffusion spatio-temporelle (ST-Diff) conçu pour un objectif de "remplissage et révision". Notre innovation clé est un calendrier de bruit variable spatio-temporel : les régions vides reçoivent un bruit complet pour déclencher la génération, tandis que les régions déformées reçoivent un bruit partiel pour permettre un raffinement. En mettant à jour dynamiquement le cache 3D à chaque étape, WorldWarp maintient la cohérence entre les segments vidéo. Par conséquent, il atteint une fidélité de pointe en veillant à ce que la logique 3D guide la structure tandis que la logique de diffusion perfectionne la texture. Page du projet : https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.