ChatPaper.aiChatPaper

Costura de Vistas Generativa

Generative View Stitching

October 28, 2025
Autores: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI

Resumen

Los modelos de difusión de video autoregresivos son capaces de generar secuencias largas que son estables y consistentes con la historia, pero son incapaces de guiar la generación actual con información de condicionamiento del futuro. En la generación de video guiada por cámara con una trayectoria predefinida, esta limitación provoca colisiones con la escena generada, tras lo cual la autoregresión colapsa rápidamente. Para abordar esto, proponemos la Costura de Vista Generativa (GVS), que muestrea toda la secuencia en paralelo de modo que la escena generada sea fiel a cada parte de la trayectoria predefinida de la cámara. Nuestra contribución principal es un algoritmo de muestreo que extiende trabajos previos sobre costura de difusión para planificación robótica aplicada a la generación de video. Aunque estos métodos de costura suelen requerir un modelo especialmente entrenado, GVS es compatible con cualquier modelo de video estándar entrenado con "Difusión Forzada" (Diffusion Forcing), un marco de difusión de secuencias prevalente que demostramos ya proporciona las capacidades necesarias para la costura. Luego presentamos la Guía Omni, una técnica que mejora la consistencia temporal en la costura al condicionar tanto el pasado como el futuro, y que permite nuestro mecanismo propuesto de cierre de bucles para lograr coherencia de largo alcance. En general, GVS logra una generación de video guiada por cámara que es estable, libre de colisiones, consistente de fotograma a fotograma y que cierra bucles para una variedad de trayectorias de cámara predefinidas, incluyendo la Escalera Imposible de Oscar Reutersvärd. Los resultados se aprecian mejor como videos en https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are stable and consistent with history, but they are unable to guide the current generation with conditioning from the future. In camera-guided video generation with a predefined camera trajectory, this limitation leads to collisions with the generated scene, after which autoregression quickly collapses. To address this, we propose Generative View Stitching (GVS), which samples the entire sequence in parallel such that the generated scene is faithful to every part of the predefined camera trajectory. Our main contribution is a sampling algorithm that extends prior work on diffusion stitching for robot planning to video generation. While such stitching methods usually require a specially trained model, GVS is compatible with any off-the-shelf video model trained with Diffusion Forcing, a prevalent sequence diffusion framework that we show already provides the affordances necessary for stitching. We then introduce Omni Guidance, a technique that enhances the temporal consistency in stitching by conditioning on both the past and future, and that enables our proposed loop-closing mechanism for delivering long-range coherence. Overall, GVS achieves camera-guided video generation that is stable, collision-free, frame-to-frame consistent, and closes loops for a variety of predefined camera paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best viewed as videos at https://andrewsonga.github.io/gvs.
PDF22December 2, 2025