Costura de Visão Generativa
Generative View Stitching
October 28, 2025
Autores: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI
Resumo
Os modelos de difusão de vídeo autoregressivos são capazes de gerar sequências longas que são estáveis e consistentes com o histórico, mas são incapazes de orientar a geração atual com condicionamento a partir do futuro. Na geração de vídeo guiada por câmera com uma trajetória de câmera predefinida, esta limitação leva a colisões com a cena gerada, após as quais a autoregressão colapsa rapidamente. Para resolver isso, propomos a Costura Generativa de Vista (GVS), que amostra toda a sequência em paralelo, de modo que a cena gerada seja fiel a cada parte da trajetória de câmera predefinida. Nossa principal contribuição é um algoritmo de amostragem que estende trabalhos anteriores sobre costura de difusão para planejamento de robôs para a geração de vídeo. Embora tais métodos de costura geralmente exijam um modelo especialmente treinado, o GVS é compatível com qualquer modelo de vídeo pronto para uso treinado com Diffusion Forcing, uma estrutura de difusão de sequência prevalente que demonstramos já fornecer as capacidades necessárias para a costura. Em seguida, introduzimos a Orientação Ômni, uma técnica que melhora a consistência temporal na costura ao condicionar tanto no passado quanto no futuro, e que permite nosso mecanismo proposto de fechamento de loop para fornecer coerência de longo alcance. No geral, o GVS alcança geração de vídeo guiada por câmera que é estável, livre de colisões, consistente de quadro a quadro e fecha loops para uma variedade de caminhos de câmera predefinidos, incluindo a Escada Impossível de Oscar Reutersvärd. Os resultados são melhor visualizados como vídeos em https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are
stable and consistent with history, but they are unable to guide the current
generation with conditioning from the future. In camera-guided video generation
with a predefined camera trajectory, this limitation leads to collisions with
the generated scene, after which autoregression quickly collapses. To address
this, we propose Generative View Stitching (GVS), which samples the entire
sequence in parallel such that the generated scene is faithful to every part of
the predefined camera trajectory. Our main contribution is a sampling algorithm
that extends prior work on diffusion stitching for robot planning to video
generation. While such stitching methods usually require a specially trained
model, GVS is compatible with any off-the-shelf video model trained with
Diffusion Forcing, a prevalent sequence diffusion framework that we show
already provides the affordances necessary for stitching. We then introduce
Omni Guidance, a technique that enhances the temporal consistency in stitching
by conditioning on both the past and future, and that enables our proposed
loop-closing mechanism for delivering long-range coherence. Overall, GVS
achieves camera-guided video generation that is stable, collision-free,
frame-to-frame consistent, and closes loops for a variety of predefined camera
paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best
viewed as videos at https://andrewsonga.github.io/gvs.