Generatieve Zichtsamenvoeging
Generative View Stitching
October 28, 2025
Auteurs: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI
Samenvatting
Autoregressieve videodiffusiemodellen zijn in staat tot lange, stabiele reeksen die consistent zijn met de voorgeschiedenis, maar ze kunnen de huidige generatie niet sturen met conditionering vanuit de toekomst. Bij cameragestuurde videogeneratie met een vooraf gedefinieerd cameratraject leidt deze beperking tot botsingen met de gegenereerde scène, waarna de autoregressie snel instort. Om dit aan te pakken, stellen wij Generative View Stitching (GVS) voor, waarbij de gehele reeks parallel wordt bemonsterd, zodat de gegenereerde scène trouw is aan elk deel van het vooraf gedefinieerde cameratraject. Onze belangrijkste bijdrage is een bemonsteringsalgoritme dat eerder werk over diffusiestitching voor robotplanning uitbreidt naar videogeneratie. Terwijl dergelijke stitchingmethoden meestal een speciaal getraind model vereisen, is GVS compatibel met elk standaard videomodel dat is getraind met Diffusion Forcing, een prevalent sequentiediffusieraamwerk waarvan wij aantonen dat het reeds de benodigde mogelijkheden voor stitching biedt. Vervolgens introduceren wij Omni Guidance, een techniek die de temporele consistentie bij stitching verbetert door conditionering op zowel verleden als toekomst, en die onze voorgestelde loop-sluitingsmechanisme mogelijk maakt voor het bereiken van coherentie over lange afstanden. Over het geheel genomen bereikt GVS cameragestuurde videogeneratie die stabiel, botsingsvrij, frame-tot-frame consistent is en loops sluit voor een verscheidenheid aan vooraf gedefinieerde camerapaden, waaronder de Onmogelijke Trap van Oscar Reutersvärd. De resultaten kunnen het beste worden bekeken als video's op https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are
stable and consistent with history, but they are unable to guide the current
generation with conditioning from the future. In camera-guided video generation
with a predefined camera trajectory, this limitation leads to collisions with
the generated scene, after which autoregression quickly collapses. To address
this, we propose Generative View Stitching (GVS), which samples the entire
sequence in parallel such that the generated scene is faithful to every part of
the predefined camera trajectory. Our main contribution is a sampling algorithm
that extends prior work on diffusion stitching for robot planning to video
generation. While such stitching methods usually require a specially trained
model, GVS is compatible with any off-the-shelf video model trained with
Diffusion Forcing, a prevalent sequence diffusion framework that we show
already provides the affordances necessary for stitching. We then introduce
Omni Guidance, a technique that enhances the temporal consistency in stitching
by conditioning on both the past and future, and that enables our proposed
loop-closing mechanism for delivering long-range coherence. Overall, GVS
achieves camera-guided video generation that is stable, collision-free,
frame-to-frame consistent, and closes loops for a variety of predefined camera
paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best
viewed as videos at https://andrewsonga.github.io/gvs.