Reangle-A-Video: Генерация 4D-видео как задача перевода видео в видео
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Авторы: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Аннотация
Мы представляем Reangle-A-Video, унифицированную платформу для генерации синхронизированных многовидовых видео из одного входного видео. В отличие от основных подходов, которые обучают модели диффузии многовидового видео на крупномасштабных 4D-наборах данных, наш метод переосмысливает задачу генерации многовидового видео как преобразование видео в видео, используя общедоступные априорные знания о диффузии изображений и видео. По сути, Reangle-A-Video работает в два этапа. (1) Обучение многовидового движения: трансформер для преобразования изображений в видео синхронно дообучается в самообучаемом режиме для извлечения инвариантного к виду движения из набора искаженных видео. (2) Согласованное преобразование изображений в изображения для многовидового контекста: первый кадр входного видео искажается и восстанавливается в различных перспективах камеры с использованием DUSt3R для обеспечения согласованности между видами на этапе вывода, что позволяет генерировать согласованные начальные изображения для многовидового контекста. Многочисленные эксперименты по статической транспортировке вида и динамическому управлению камерой показывают, что Reangle-A-Video превосходит существующие методы, предлагая новое решение для генерации многовидового видео. Мы опубликуем наш код и данные. Страница проекта: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary