Reangle-A-Video: Geração de Vídeo 4D como Tradução de Vídeo para Vídeo
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
Autores: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
Resumo
Apresentamos o Reangle-A-Video, um framework unificado para gerar vídeos multi-visão sincronizados a partir de um único vídeo de entrada. Diferente das abordagens convencionais que treinam modelos de difusão de vídeos multi-visão em grandes conjuntos de dados 4D, nosso método reformula a tarefa de geração de vídeos multi-visão como uma tradução de vídeo para vídeos, aproveitando priors de difusão de imagens e vídeos disponíveis publicamente. Em essência, o Reangle-A-Video opera em dois estágios. (1) Aprendizado de Movimento Multi-Visão: Um transformador de difusão de imagem para vídeo é ajustado de forma síncrona e auto-supervisionada para destilar movimento invariante à visão a partir de um conjunto de vídeos deformados. (2) Tradução Consistente de Imagem para Imagens Multi-Visão: O primeiro quadro do vídeo de entrada é deformado e preenchido em várias perspectivas de câmera sob uma orientação de consistência cruzada em tempo de inferência usando DUSt3R, gerando imagens iniciais consistentes em multi-visão. Experimentos extensivos em transporte de visão estática e controle dinâmico de câmera mostram que o Reangle-A-Video supera os métodos existentes, estabelecendo uma nova solução para geração de vídeos multi-visão. Disponibilizaremos publicamente nosso código e dados. Página do projeto: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary