Reangle-A-Video: Generazione di Video 4D come Traduzione da Video a Video
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Autori: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Abstract
Presentiamo Reangle-A-Video, un framework unificato per la generazione di video multi-vista sincronizzati a partire da un singolo video di input. A differenza degli approcci principali che addestrano modelli di diffusione per video multi-vista su dataset 4D su larga scala, il nostro metodo riformula il compito di generazione di video multi-vista come una traduzione da video a video, sfruttando prior di diffusione per immagini e video disponibili pubblicamente. In sostanza, Reangle-A-Video opera in due fasi. (1) Apprendimento del Movimento Multi-Vista: Un trasformatore di diffusione da immagine a video viene sincronamente fine-tuned in modo auto-supervisionato per distillare il movimento invariante rispetto alla vista da un insieme di video deformati. (2) Traduzione Consistente da Immagine a Immagine Multi-Vista: Il primo fotogramma del video di input viene deformato e inpainting in varie prospettive della fotocamera sotto una guida di consistenza cross-vista durante l'inferenza utilizzando DUSt3R, generando immagini iniziali consistenti multi-vista. Esperimenti estesi sul trasporto di vista statica e sul controllo dinamico della fotocamera dimostrano che Reangle-A-Video supera i metodi esistenti, stabilendo una nuova soluzione per la generazione di video multi-vista. Rilasceremo pubblicamente il nostro codice e i dati. Pagina del progetto: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary