WorldWarp: Propagazione di Geometrie 3D con Diffusione Video Asincrona
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
December 22, 2025
Autori: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI
Abstract
La generazione di video geometricamente coerenti a lungo raggio presenta un dilemma fondamentale: sebbene la coerenza richieda un rigoroso rispetto della geometria 3D nello spazio dei pixel, i modelli generativi all'avanguardia operano in modo più efficace in uno spazio latente condizionato dalla telecamera. Questa disconnessione fa sì che i metodi attuali incontrino difficoltà con le aree occluse e traiettorie complesse della telecamera.
Per colmare questa lacuna, proponiamo WorldWarp, un framework che accoppia un'ancora strutturale 3D con un raffinatore generativo 2D. Per stabilire un ancoraggio geometrico, WorldWarp mantiene una cache geometrica 3D online costruita tramite Gaussian Splatting (3DGS). Deformando esplicitamente il contenuto storico in nuove visuali, questa cache funge da impalcatura strutturale, garantendo che ogni nuovo fotogramma rispetti la geometria precedente.
Tuttavia, la deformazione statica lascia inevitabilmente lacune e artefatti a causa delle occlusioni. Affrontiamo questo problema utilizzando un modello di diffusione spaziotemporale (ST-Diff) progettato per un obiettivo di "riempimento e revisione". La nostra innovazione chiave è una programmazione del rumore variabile spaziotemporalmente: le regioni vuote ricevono rumore completo per innescare la generazione, mentre le regioni deformate ricevono rumore parziale per consentire la rifinitura.
Aggiornando dinamicamente la cache 3D a ogni passo, WorldWarp mantiene la coerenza tra i segmenti video. Di conseguenza, raggiunge una fedeltà all'avanguardia garantendo che la logica 3D guidi la struttura mentre la logica di diffusione perfeziona la texture. Pagina del progetto: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.