Generative Sichtverknüpfung
Generative View Stitching
October 28, 2025
papers.authors: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI
papers.abstract
Autoregressive Videodiffusionsmodelle sind in der Lage, lange, stabile und mit der Historie konsistente Sequenzen zu erzeugen, können jedoch die aktuelle Generierung nicht anhand zukünftiger Konditionierung steuern. Bei der kamerageführten Videogenerierung mit einer vordefinierten Kameratrajektorie führt diese Einschränkung zu Kollisionen mit der generierten Szene, woraufhin die Autoregression schnell zusammenbricht. Um dies zu beheben, schlagen wir Generative View Stitching (GVS) vor, das die gesamte Sequenz parallel abtastet, sodass die generierte Szene jedem Teil der vordefinierten Kameratrajektorie entspricht. Unser Hauptbeitrag ist ein Sampling-Algorithmus, der frühere Arbeiten zur Diffusionsverknüpfung für die Roboterplanung auf die Videogenerierung überträgt. Während solche Verknüpfungsmethoden normalerweise ein speziell trainiertes Modell erfordern, ist GVS mit jedem handelsüblichen Videomodell kompatibel, das mit Diffusion Forcing trainiert wurde – einem verbreiteten Sequenzdiffusionsframework, von dem wir zeigen, dass es bereits die für die Verknüpfung notwendigen Voraussetzungen bietet. Anschließend führen wir Omni Guidance ein, eine Technik, die die zeitliche Konsistenz bei der Verknüpfung durch Konditionierung auf Vergangenheit und Zukunft verbessert und unseren vorgeschlagenen Loop-Closing-Mechanismus für langreichweitige Kohärenz ermöglicht. Insgesamt erreicht GVS eine kamerageführte Videogenerierung, die stabil, kollisionsfrei, rahmenkonsistent ist und Schleifen für eine Vielzahl vordefinierter Kamerapfade schließt, einschließlich Oscar Reutersvärd's Unmöglicher Treppe. Die Ergebnisse sind am besten als Videos unter https://andrewsonga.github.io/gvs zu betrachten.
English
Autoregressive video diffusion models are capable of long rollouts that are
stable and consistent with history, but they are unable to guide the current
generation with conditioning from the future. In camera-guided video generation
with a predefined camera trajectory, this limitation leads to collisions with
the generated scene, after which autoregression quickly collapses. To address
this, we propose Generative View Stitching (GVS), which samples the entire
sequence in parallel such that the generated scene is faithful to every part of
the predefined camera trajectory. Our main contribution is a sampling algorithm
that extends prior work on diffusion stitching for robot planning to video
generation. While such stitching methods usually require a specially trained
model, GVS is compatible with any off-the-shelf video model trained with
Diffusion Forcing, a prevalent sequence diffusion framework that we show
already provides the affordances necessary for stitching. We then introduce
Omni Guidance, a technique that enhances the temporal consistency in stitching
by conditioning on both the past and future, and that enables our proposed
loop-closing mechanism for delivering long-range coherence. Overall, GVS
achieves camera-guided video generation that is stable, collision-free,
frame-to-frame consistent, and closes loops for a variety of predefined camera
paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best
viewed as videos at https://andrewsonga.github.io/gvs.