ChatPaper.aiChatPaper

WorldWarp: 非同期ビデオ拡散による3Dジオメトリの伝播

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

December 22, 2025
著者: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI

要旨

長距離にわたる幾何学的に一貫性のある動画生成は、根本的なジレンマに直面している。一貫性を保つにはピクセル空間における3D幾何学への厳密な準拠が求められる一方、最先端の生成モデルはカメラ条件付き潜在空間で最も効果的に動作するからだ。この断絶により、現在の手法は遮蔽領域や複雑なカメラ軌道に苦戦している。この隔たりを埋めるため、我々は3D構造的アンカーと2D生成リファイナーを結合するフレームワーク「WorldWarp」を提案する。幾何学的基盤を確立するため、WorldWarpはGaussian Splatting(3DGS)によって構築されたオンライン3D幾何キャッシュを維持する。履歴コンテンツを明示的に新規視点にワープさせることで、このキャッシュは構造的な足場として機能し、各新規フレームが過去の幾何学を尊重することを保証する。しかし、静的なワーピングでは遮蔽による穴やアーティファクトが不可避的に生じる。この問題に対処するため、我々は「埋め立てと修正」を目的とした時空間拡散(ST-Diff)モデルを採用する。核心的な革新は、時空間的に変化するノイズスケジュールである:空白領域は生成を促すために完全なノイズを受け、ワープ領域は洗練を可能にするために部分的なノイズを受ける。3Dキャッシュを各ステップで動的に更新することにより、WorldWarpは動画チャンク間の一貫性を維持する。結果として、3Dロジックが構造を導きながら拡散ロジックが質感を完成させることで、最先端の忠実度を実現する。プロジェクトページ:https://hyokong.github.io/worldwarp-page/
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.
PDF202December 24, 2025