Generazione di Vista a Cucitura
Generative View Stitching
October 28, 2025
Autori: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI
Abstract
I modelli di diffusione video autoregressivi sono in grado di produrre sequenze lunghe e stabili, coerenti con la cronologia precedente, ma non riescono a guidare la generazione corrente utilizzando condizionamenti provenienti dal futuro. Nella generazione video guidata da traiettoria di camera predefinita, questa limitazione porta a collisioni con la scena generata, dopo le quali l'autoregressione collassa rapidamente. Per risolvere questo problema, proponiamo la Cucitura di Vista Generativa (Generative View Stitching - GVS), che campiona l'intera sequenza in parallelo in modo che la scena generata sia fedele a ogni parte della traiettoria di camera predefinita. Il nostro contributo principale è un algoritmo di campionamento che estende il lavoro precedente sulla cucitura di diffusione per la pianificazione robotica alla generazione video. Mentre tali metodi di cucitura di solito richiedono un modello appositamente addestrato, GVS è compatibile con qualsiasi modello video standard addestrato con Diffusion Forcing, un diffuso framework di diffusione per sequenze che dimostriamo fornire già le capacità necessarie per la cucitura. Introduciamo poi la Guida Onni (Omni Guidance), una tecnica che migliora la coerenza temporale nella cucitura condizionando sia sul passato che sul futuro, e che abilita il nostro meccanismo proposto di chiusura del ciclo (loop-closing) per ottenere coerenza a lungo raggio. Nel complesso, GVS realizza una generazione video guidata da camera che è stabile, priva di collisioni, coerente da frame a frame e in grado di chiudere cicli per una varietà di traiettorie di camera predefinite, inclusa la Scala Impossibile di Oscar Reutersvärd. I risultati sono meglio apprezzabili come video all'indirizzo https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are
stable and consistent with history, but they are unable to guide the current
generation with conditioning from the future. In camera-guided video generation
with a predefined camera trajectory, this limitation leads to collisions with
the generated scene, after which autoregression quickly collapses. To address
this, we propose Generative View Stitching (GVS), which samples the entire
sequence in parallel such that the generated scene is faithful to every part of
the predefined camera trajectory. Our main contribution is a sampling algorithm
that extends prior work on diffusion stitching for robot planning to video
generation. While such stitching methods usually require a specially trained
model, GVS is compatible with any off-the-shelf video model trained with
Diffusion Forcing, a prevalent sequence diffusion framework that we show
already provides the affordances necessary for stitching. We then introduce
Omni Guidance, a technique that enhances the temporal consistency in stitching
by conditioning on both the past and future, and that enables our proposed
loop-closing mechanism for delivering long-range coherence. Overall, GVS
achieves camera-guided video generation that is stable, collision-free,
frame-to-frame consistent, and closes loops for a variety of predefined camera
paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best
viewed as videos at https://andrewsonga.github.io/gvs.