ChatPaper.aiChatPaper

Generatieve Zichtsamenvoeging

Generative View Stitching

October 28, 2025
Auteurs: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI

Samenvatting

Autoregressieve videodiffusiemodellen zijn in staat tot lange, stabiele reeksen die consistent zijn met de voorgeschiedenis, maar ze kunnen de huidige generatie niet sturen met conditionering vanuit de toekomst. Bij cameragestuurde videogeneratie met een vooraf gedefinieerd cameratraject leidt deze beperking tot botsingen met de gegenereerde scène, waarna de autoregressie snel instort. Om dit aan te pakken, stellen wij Generative View Stitching (GVS) voor, waarbij de gehele reeks parallel wordt bemonsterd, zodat de gegenereerde scène trouw is aan elk deel van het vooraf gedefinieerde cameratraject. Onze belangrijkste bijdrage is een bemonsteringsalgoritme dat eerder werk over diffusiestitching voor robotplanning uitbreidt naar videogeneratie. Terwijl dergelijke stitchingmethoden meestal een speciaal getraind model vereisen, is GVS compatibel met elk standaard videomodel dat is getraind met Diffusion Forcing, een prevalent sequentiediffusieraamwerk waarvan wij aantonen dat het reeds de benodigde mogelijkheden voor stitching biedt. Vervolgens introduceren wij Omni Guidance, een techniek die de temporele consistentie bij stitching verbetert door conditionering op zowel verleden als toekomst, en die onze voorgestelde loop-sluitingsmechanisme mogelijk maakt voor het bereiken van coherentie over lange afstanden. Over het geheel genomen bereikt GVS cameragestuurde videogeneratie die stabiel, botsingsvrij, frame-tot-frame consistent is en loops sluit voor een verscheidenheid aan vooraf gedefinieerde camerapaden, waaronder de Onmogelijke Trap van Oscar Reutersvärd. De resultaten kunnen het beste worden bekeken als video's op https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are stable and consistent with history, but they are unable to guide the current generation with conditioning from the future. In camera-guided video generation with a predefined camera trajectory, this limitation leads to collisions with the generated scene, after which autoregression quickly collapses. To address this, we propose Generative View Stitching (GVS), which samples the entire sequence in parallel such that the generated scene is faithful to every part of the predefined camera trajectory. Our main contribution is a sampling algorithm that extends prior work on diffusion stitching for robot planning to video generation. While such stitching methods usually require a specially trained model, GVS is compatible with any off-the-shelf video model trained with Diffusion Forcing, a prevalent sequence diffusion framework that we show already provides the affordances necessary for stitching. We then introduce Omni Guidance, a technique that enhances the temporal consistency in stitching by conditioning on both the past and future, and that enables our proposed loop-closing mechanism for delivering long-range coherence. Overall, GVS achieves camera-guided video generation that is stable, collision-free, frame-to-frame consistent, and closes loops for a variety of predefined camera paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best viewed as videos at https://andrewsonga.github.io/gvs.
PDF22December 2, 2025