Reangle-A-Video: 4D-videogeneratie als video-naar-video-vertaling
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Auteurs: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Samenvatting
We introduceren Reangle-A-Video, een uniform raamwerk voor het genereren van gesynchroniseerde multi-view video's vanuit een enkele invoervideo. In tegenstelling tot mainstream benaderingen die multi-view videodiffusiemodellen trainen op grootschalige 4D-datasets, herformuleert onze methode de taak van multi-view videogeneratie als video-naar-video's vertaling, waarbij gebruik wordt gemaakt van publiek beschikbare beeld- en videodiffusiepriors. In essentie werkt Reangle-A-Video in twee fasen. (1) Multi-View Bewegingsleren: Een beeld-naar-video diffusietransformer wordt synchroon fijn afgestemd op een zelfgesuperviseerde manier om view-invariante beweging te destilleren uit een set vervormde video's. (2) Multi-View Consistente Beeld-naar-Beeld Vertaling: Het eerste frame van de invoervideo wordt vervormd en ingevuld in verschillende cameraperspectieven onder een inferentie-tijd cross-view consistentiebegeleiding met behulp van DUSt3R, waardoor multi-view consistente startbeelden worden gegenereerd. Uitgebreide experimenten op statische view-transport en dynamische camerabesturing tonen aan dat Reangle-A-Video bestaande methoden overtreft, en een nieuwe oplossing biedt voor multi-view videogeneratie. We zullen onze code en data openbaar beschikbaar stellen. Projectpagina: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary