ChatPaper.aiChatPaper

WorldWarp: Распространение 3D-геометрии с помощью асинхронной видео-диффузии

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

December 22, 2025
Авторы: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI

Аннотация

Создание геометрически согласованных видео большой протяженности сталкивается с фундаментальной дилеммой: хотя согласованность требует строгого соблюдения 3D-геометрии в пространстве пикселей, современные генеративные модели наиболее эффективно работают в латентном пространстве с условиями на камеру. Этот разрыв приводит к тому, что существующие методы плохо справляются с окклюзированными областями и сложными траекториями камеры. Для преодоления этого разрыва мы предлагаем WorldWarp — фреймворк, сочетающий 3D-структурный якорь с 2D-генеративным уточнителем. Для обеспечения геометрической обоснованности WorldWarp поддерживает онлайн-кэш 3D-геометрии, построенный с помощью гауссовского сплайтинга (3DGS). Явным образом преобразуя исторический контент в новые ракурсы, этот кэш служит структурным каркасом, гарантируя, что каждый новый кадр соответствует предыдущей геометрии. Однако статическое преобразование неизбежно оставляет дыры и артефакты из-за окклюзий. Мы решаем эту проблему с помощью Spatio-Temporal Diffusion (ST-Diff) модели, предназначенной для задачи «заполнения и ревизии». Ключевым нововведением является пространственно-временной изменяемый график зашумления: пустые области получают полный шум для инициации генерации, тогда как преобразованные области получают частичный шум для возможности уточнения. Динамически обновляя 3D-кэш на каждом шаге, WorldWarp сохраняет согласованность между фрагментами видео. В результате достигается высочайшая точность за счет того, что 3D-логика направляет структуру, а диффузионная логика совершенствует текстуру. Страница проекта: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.
PDF202December 24, 2025