Reangle-A-Video : Génération de vidéos 4D comme traduction vidéo-à-vidéo
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Auteurs: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Résumé
Nous présentons Reangle-A-Video, un cadre unifié pour générer des vidéos multi-vues synchronisées à partir d'une seule vidéo d'entrée. Contrairement aux approches dominantes qui entraînent des modèles de diffusion de vidéos multi-vues sur des ensembles de données 4D à grande échelle, notre méthode reformule la tâche de génération de vidéos multi-vues comme une traduction vidéo-à-vidéos, en exploitant des préalables de diffusion d'images et de vidéos disponibles publiquement. En substance, Reangle-A-Video fonctionne en deux étapes. (1) Apprentissage du mouvement multi-vues : Un transformateur de diffusion image-à-vidéo est affiné de manière synchrone et auto-supervisée pour distiller un mouvement invariant à la vue à partir d'un ensemble de vidéos déformées. (2) Traduction image-à-images cohérente multi-vues : La première image de la vidéo d'entrée est déformée et inpainée dans diverses perspectives de caméra sous une guidance de cohérence inter-vues en temps d'inférence utilisant DUSt3R, générant ainsi des images de départ cohérentes multi-vues. Des expériences approfondies sur le transport de vue statique et le contrôle dynamique de caméra montrent que Reangle-A-Video surpasse les méthodes existantes, établissant une nouvelle solution pour la génération de vidéos multi-vues. Nous rendrons notre code et nos données publics. Page du projet : https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary