WorldWarp: Propagatie van 3D-geometrie met asynchrone videodiffusie
WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion
December 22, 2025
Auteurs: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI
Samenvatting
Het genereren van videobeelden met een lange reikwijdte en geometrische consistentie stelt ons voor een fundamenteel dilemma: enerzijds vereist consistentie strikte naleving van 3D-geometrie in de pixelruimte, terwijl state-of-the-art generatieve modellen het meest effectief opereren in een gecamouflageerde latente ruimte. Deze kloof zorgt ervoor dat huidige methoden moeite hebben met occlusiegebieden en complexe camerabewegingen. Om deze kloof te overbruggen, stellen we WorldWarp voor: een raamwerk dat een 3D-structuuranker koppelt aan een 2D-generatieve verfijner. Voor geometrische verankering onderhoudt WorldWarp een online 3D-geometrische cache, opgebouwd via Gaussian Splatting (3DGS). Door historische content expliciet naar nieuwe gezichtspunten te transformeren, fungeert deze cache als een structurele scaffold, waarmee elk nieuw frame de bestaande geometrie respecteert. Statische transformatie laat echter onvermijdelijk gaten en artefacten achter door occlusies. Wij lossen dit op met een Spatio-Temporeel Diffusie (ST-Diff) model, ontworpen voor een "opvul-en-revise" doelstelling. Onze belangrijkste innovatie is een ruimtelijk-temporeel variërend ruisschema: lege regio's krijgen volledige ruis om generatie te activeren, terwijl getransformeerde regio's gedeeltelijke ruis krijgen voor verfijning. Door de 3D-cache bij elke stap dynamisch bij te werken, handhaaft WorldWarp consistentie over videosegmenten. Hierdoor bereikt het state-of-the-art kwaliteit door ervoor te zorgen dat 3D-logica de structuur leidt, terwijl diffusielogica de textuur perfectioneert. Projectpagina: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.