ChatPaper.aiChatPaper

생성적 뷰 스티칭

Generative View Stitching

October 28, 2025
저자: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI

초록

자기회귀 비디오 확산 모델은 안정적이고 이전 내용과 일관된 장기 롤아웃이 가능하지만, 미래의 조건화 정보를 활용하여 현재 생성 과정을 안내할 수는 없습니다. 미리 정의된 카메라 궤적을 사용하는 카메라 안내 비디오 생성에서 이러한 한계는 생성된 장면과의 충돌을 초래하며, 이후 자기회귀는 빠르게 붕괴됩니다. 이를 해결하기 위해 우리는 생성적 뷰 스티칭(GVS)을 제안합니다. GVS는 전체 시퀀스를 병렬로 샘플링하여 생성된 장면이 미리 정의된 카메라 궤적의 모든 부분에 충실하도록 합니다. 우리의 주요 기여는 로봇 계획을 위한 기존 확산 스티칭 연구를 비디오 생성으로 확장한 샘플링 알고리즘입니다. 이러한 스티칭 방법은 일반적으로 특별히 훈련된 모델을 필요로 하지만, GVS는 우리가 이미 스티칭에 필요한 여건을 제공함을 보여준 널리 사용되는 시퀀스 확산 프레임워크인 Diffusion Forcing으로 훈련된 모든 상용 비디오 모델과 호환됩니다. 그런 다음 우리는 과거와 미래 모두를 조건화하여 스티칭의 시간적 일관성을 향상시키고, 장거리 일관성을 제공하기 위해 제안하는 루프 종료 메커니즘을 가능하게 하는 Omni Guidance 기술을 소개합니다. 전체적으로 GVS는 안정적이고 충돌이 없으며 프레임 간 일관성이 있고, Oscar Reutersvärd의 불가능한 계단을 포함한 다양한 미리 정의된 카메라 경로에 대해 루프를 종료하는 카메라 안내 비디오 생성을 달성합니다. 결과는 https://andrewsonga.github.io/gvs에서 비디오로 확인하는 것이 가장 좋습니다.
English
Autoregressive video diffusion models are capable of long rollouts that are stable and consistent with history, but they are unable to guide the current generation with conditioning from the future. In camera-guided video generation with a predefined camera trajectory, this limitation leads to collisions with the generated scene, after which autoregression quickly collapses. To address this, we propose Generative View Stitching (GVS), which samples the entire sequence in parallel such that the generated scene is faithful to every part of the predefined camera trajectory. Our main contribution is a sampling algorithm that extends prior work on diffusion stitching for robot planning to video generation. While such stitching methods usually require a specially trained model, GVS is compatible with any off-the-shelf video model trained with Diffusion Forcing, a prevalent sequence diffusion framework that we show already provides the affordances necessary for stitching. We then introduce Omni Guidance, a technique that enhances the temporal consistency in stitching by conditioning on both the past and future, and that enables our proposed loop-closing mechanism for delivering long-range coherence. Overall, GVS achieves camera-guided video generation that is stable, collision-free, frame-to-frame consistent, and closes loops for a variety of predefined camera paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best viewed as videos at https://andrewsonga.github.io/gvs.
PDF22December 2, 2025