Reangle-A-Video: Generación de videos 4D como traducción de video a video
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Autores: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Resumen
Presentamos Reangle-A-Video, un marco unificado para generar videos multi-vista sincronizados a partir de un único video de entrada. A diferencia de los enfoques predominantes que entrenan modelos de difusión de videos multi-vista en grandes conjuntos de datos 4D, nuestro método reformula la tarea de generación de videos multi-vista como una traducción de video a videos, aprovechando los priors de difusión de imágenes y videos disponibles públicamente. En esencia, Reangle-A-Video opera en dos etapas. (1) Aprendizaje de Movimiento Multi-Vista: Un transformador de difusión de imagen a video se ajusta de manera sincronizada y autosupervisada para destilar movimiento invariante a la vista a partir de un conjunto de videos deformados. (2) Traducción Consistente de Imagen a Imágenes Multi-Vista: El primer fotograma del video de entrada se deforma y rellena en varias perspectivas de cámara bajo una guía de consistencia cruzada en tiempo de inferencia utilizando DUSt3R, generando imágenes iniciales consistentes en multi-vista. Experimentos extensos en transporte de vista estática y control dinámico de cámara muestran que Reangle-A-Video supera a los métodos existentes, estableciendo una nueva solución para la generación de videos multi-vista. Publicaremos nuestro código y datos. Página del proyecto: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary