ChatPaper.aiChatPaper

WorldWarp: 비동기 비디오 확산을 통한 3D 기하구조 전파

WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion

December 22, 2025
저자: Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, Xinchao Wang
cs.AI

초록

장거리 기하학적 일관성 영상 생성은 근본적인 딜레마에 직면합니다: 일관성은 픽셀 공간에서 3D 기하학을 엄격히 준수할 것을 요구하지만, 최첨단 생성 모델은 카메라 조건화 잠재 공간에서 가장 효과적으로 작동하기 때문입니다. 이러한 단절로 인해 기존 방법은 가려진 영역과 복잡한 카메라 궤적에서 어려움을 겪습니다. 이 간극을 해소하기 위해 우리는 3D 구조적 앵커와 2D 생성 정교화기를 결합한 WorldWarp 프레임워크를 제안합니다. 기하학적 기반을 마련하기 위해 WorldWarp는 Gaussian Splatting(3DGS)을 통해 구축된 온라인 3D 기하학적 캐시를 유지합니다. 이 캐시는 역사적 콘텐츠를 명시적으로 새로운 시점으로 변환함으로써 구조적 비계 역할을 하여 각 새 프레임이 기존 기하학을 준수하도록 보장합니다. 그러나 정적 변환은 가림 현상으로 인해 필연적으로 공백과 아티팩트를 남깁니다. 우리는 이를 "채우기 및 수정" 목적을 위해 설계된 Spatio-Temporal Diffusion(ST-Diff) 모델로 해결합니다. 우리의 핵심 혁신은 시공간 변동 노이즈 스케줄입니다: 공백 영역은 생성을 촉발하기 위해 완전한 노이즈를 받는 반면, 변환된 영역은 정교화를 가능하게 하기 위해 부분적 노이즈를 받습니다. 매 단계마다 3D 캐시를 동적으로 업데이트함으로써 WorldWarp는 비디오 청크 전반에 걸쳐 일관성을 유지합니다. 결과적으로 3D 논리가 구조를 안내하는 동시에 디퓨전 논리가 텍스처를 완성하도록 보장하여 최첨단 정확도를 달성합니다. 프로젝트 페이지: https://hyokong.github.io/worldwarp-page/.
English
Generating long-range, geometrically consistent video presents a fundamental dilemma: while consistency demands strict adherence to 3D geometry in pixel space, state-of-the-art generative models operate most effectively in a camera-conditioned latent space. This disconnect causes current methods to struggle with occluded areas and complex camera trajectories. To bridge this gap, we propose WorldWarp, a framework that couples a 3D structural anchor with a 2D generative refiner. To establish geometric grounding, WorldWarp maintains an online 3D geometric cache built via Gaussian Splatting (3DGS). By explicitly warping historical content into novel views, this cache acts as a structural scaffold, ensuring each new frame respects prior geometry. However, static warping inevitably leaves holes and artifacts due to occlusions. We address this using a Spatio-Temporal Diffusion (ST-Diff) model designed for a "fill-and-revise" objective. Our key innovation is a spatio-temporal varying noise schedule: blank regions receive full noise to trigger generation, while warped regions receive partial noise to enable refinement. By dynamically updating the 3D cache at every step, WorldWarp maintains consistency across video chunks. Consequently, it achieves state-of-the-art fidelity by ensuring that 3D logic guides structure while diffusion logic perfects texture. Project page: https://hyokong.github.io/worldwarp-page/{https://hyokong.github.io/worldwarp-page/}.
PDF202December 24, 2025