Génération de vues par assemblage
Generative View Stitching
October 28, 2025
papers.authors: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI
papers.abstract
Les modèles de diffusion vidéo autorégressifs sont capables de produire des séquences longues, stables et cohérentes avec l'historique, mais ils ne peuvent pas guider la génération courante à l'aide d'informations conditionnelles provenant du futur. Dans la génération de vidéos guidée par caméra avec une trajectoire prédéfinie, cette limitation entraîne des collisions avec la scène générée, après lesquelles l'autorégression s'effondre rapidement. Pour résoudre ce problème, nous proposons le "Generative View Stitching" (GVS), qui échantillonne l'intégralité de la séquence en parallèle afin que la scène générée soit fidèle à chaque partie de la trajectoire prédéfinie de la caméra. Notre contribution principale est un algorithme d'échantillonnage qui étend les travaux antérieurs sur le "stitching" par diffusion pour la planification robotique à la génération vidéo. Alors que ces méthodes de stitching nécessitent généralement un modèle spécialement entraîné, GVS est compatible avec tout modèle vidéo standard entraîné avec "Diffusion Forcing", un cadre de diffusion séquentielle prévalent dont nous montrons qu'il fournit déjà les capacités nécessaires au stitching. Nous introduisons ensuite "Omni Guidance", une technique qui améliore la cohérence temporelle lors du stitching en conditionnant à la fois sur le passé et le futur, et qui permet notre mécanisme proposé de fermeture de boucle pour assurer une cohérence à long terme. Globalement, GVS permet une génération vidéo guidée par caméra qui est stable, sans collision, cohérente d'image à image, et qui referme les boucles pour une variété de trajectoires de caméra prédéfinies, y compris l'escalier impossible d'Oscar Reutersvärd. Les résultats sont mieux appréciés sous forme de vidéos sur https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are
stable and consistent with history, but they are unable to guide the current
generation with conditioning from the future. In camera-guided video generation
with a predefined camera trajectory, this limitation leads to collisions with
the generated scene, after which autoregression quickly collapses. To address
this, we propose Generative View Stitching (GVS), which samples the entire
sequence in parallel such that the generated scene is faithful to every part of
the predefined camera trajectory. Our main contribution is a sampling algorithm
that extends prior work on diffusion stitching for robot planning to video
generation. While such stitching methods usually require a specially trained
model, GVS is compatible with any off-the-shelf video model trained with
Diffusion Forcing, a prevalent sequence diffusion framework that we show
already provides the affordances necessary for stitching. We then introduce
Omni Guidance, a technique that enhances the temporal consistency in stitching
by conditioning on both the past and future, and that enables our proposed
loop-closing mechanism for delivering long-range coherence. Overall, GVS
achieves camera-guided video generation that is stable, collision-free,
frame-to-frame consistent, and closes loops for a variety of predefined camera
paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best
viewed as videos at https://andrewsonga.github.io/gvs.