WorldWarp: Propagation von 3D-Geometrie mit asynchroner Videodiffusion
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
December 22, 2025
papers.authors: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI
papers.abstract
Die Erzeugung langreichweitiger, geometrisch konsistenter Videos stellt ein grundlegendes Dilemma dar: Während Konsistenz strikte Einhaltung der 3D-Geometrie im Pixelraum erfordert, operieren moderne generative Modelle am effektivsten in einem kamera-konditionierten latenten Raum. Diese Diskrepanz führt dazu, dass aktuelle Methoden mit verdeckten Bereichen und komplexen Kameratrajektorien kämpfen. Um diese Lücke zu schließen, schlagen wir WorldWarp vor, ein Framework, das einen 3D-Strukturanker mit einem 2D-generativen Verfeinerer koppelt. Um geometrische Verankerung zu schaffen, pflegt WorldWarp einen online 3D-Geometrie-Cache, der mittels Gaussian Splatting (3DGS) aufgebaut wird. Durch explizites Warpen historischer Inhalte in neue Blickwinkel dient dieser Cache als strukturelles Gerüst, das sicherstellt, dass jedes neue Frame die vorherige Geometrie respektiert. Statisches Warpen hinterlässt jedoch unweigerlich Lücken und Artefakte aufgrund von Verdeckungen. Dies lösen wir mit einem Spatio-Temporal Diffusion (ST-Diff)-Modell, das für ein "Füllen-und-Überarbeiten"-Ziel konzipiert ist. Unsere Schlüsselinnovation ist ein räumlich-zeitlich variierender Noise-Zeitplan: Leere Regionen erhalten volles Rauschen zur Auslösung der Generierung, während gewarpte Regionen partielles Rauschen zur Ermöglichung der Verfeinerung erhalten. Durch dynamisches Aktualisieren des 3D-Caches in jedem Schritt bewahrt WorldWarp die Konsistenz über Videoabschnitte hinweg. Folglich erreicht es state-of-the-art Bildtreue, indem es sicherstellt, dass 3D-Logik die Struktur leitet, während Diffusionslogik die Textur perfektioniert. Projektseite: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.