Генеративное объединение видов
Generative View Stitching
October 28, 2025
Авторы: Chonghyuk Song, Michal Stary, Boyuan Chen, George Kopanas, Vincent Sitzmann
cs.AI
Аннотация
Авторегрессионные диффузионные модели видео способны создавать продолжительные стабильные последовательности, согласованные с историей, но не могут направлять текущую генерацию на основе условий из будущего. В задаче генерации видео по заданной траектории камеры это ограничение приводит к коллизиям с генерируемой сценой, после которых авторегрессия быстро разрушается. Для решения этой проблемы мы предлагаем метод Generative View Stitching (GVS), который выполняет выборку всей последовательности параллельно, обеспечивая соответствие генерируемой сцены каждому участку предопределённой траектории камеры. Нашим основным вкладом является алгоритм сэмплинга, расширяющий предыдущие работы по сшивке диффузий для планирования движений роботов применительно к генерации видео. В то время как подобные методы сшивки обычно требуют специально обученной модели, GVS совместим с любой готовой видео-моделью, обученной с использованием Diffusion Forcing — широко распространённого фреймворка для последовательностной диффузии, который, как мы показываем, уже предоставляет необходимые для сшивки возможности. Далее мы представляем Omni Guidance — технику, улучшающую временную согласованность при сшивке за счёт кондиционирования как на прошлое, так и на будущее, что позволяет реализовать предлагаемый механизм замыкания циклов для обеспечения согласованности на больших промежутках. В целом, GVS обеспечивает генерацию видео по траектории камеры, которая является стабильной, свободной от коллизий, последовательной от кадра к кадру и замыкает циклы для различных предопределённых путей камеры, включая Невозможную лестницу Оскара Реутерсвёрда. Результаты лучше всего оценивать в видеовидео на https://andrewsonga.github.io/gvs.
English
Autoregressive video diffusion models are capable of long rollouts that are
stable and consistent with history, but they are unable to guide the current
generation with conditioning from the future. In camera-guided video generation
with a predefined camera trajectory, this limitation leads to collisions with
the generated scene, after which autoregression quickly collapses. To address
this, we propose Generative View Stitching (GVS), which samples the entire
sequence in parallel such that the generated scene is faithful to every part of
the predefined camera trajectory. Our main contribution is a sampling algorithm
that extends prior work on diffusion stitching for robot planning to video
generation. While such stitching methods usually require a specially trained
model, GVS is compatible with any off-the-shelf video model trained with
Diffusion Forcing, a prevalent sequence diffusion framework that we show
already provides the affordances necessary for stitching. We then introduce
Omni Guidance, a technique that enhances the temporal consistency in stitching
by conditioning on both the past and future, and that enables our proposed
loop-closing mechanism for delivering long-range coherence. Overall, GVS
achieves camera-guided video generation that is stable, collision-free,
frame-to-frame consistent, and closes loops for a variety of predefined camera
paths, including Oscar Reutersv\"ard's Impossible Staircase. Results are best
viewed as videos at https://andrewsonga.github.io/gvs.