Reangle-A-Video: 4Dビデオ生成をビデオ間翻訳として実現
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation
March 12, 2025
著者: Hyeonho Jeong, Suhyeon Lee, Jong Chul Ye
cs.AI
要旨
Reangle-A-Videoを紹介します。これは、単一の入力ビデオから同期したマルチビュービデオを生成するための統一フレームワークです。大規模な4Dデータセットでマルチビュービデオ拡散モデルを訓練する主流のアプローチとは異なり、本手法はマルチビュービデオ生成タスクをビデオ間変換として再定義し、公開されている画像およびビデオ拡散事前知識を活用します。本質的に、Reangle-A-Videoは2つの段階で動作します。(1) マルチビュー運動学習: 画像からビデオへの拡散トランスフォーマーを自己教師あり方式で同期して微調整し、ワープされたビデオセットからビュー不変の運動を抽出します。(2) マルチビュー整合性のある画像間変換: 入力ビデオの最初のフレームをワープし、DUSt3Rを使用した推論時のクロスビュー整合性ガイダンスの下でさまざまなカメラ視点にインペイントし、マルチビュー整合性のある開始画像を生成します。静的ビュー転送および動的カメラ制御に関する広範な実験により、Reangle-A-Videoが既存の手法を凌駕し、マルチビュービデオ生成の新たなソリューションを確立することが示されました。コードとデータを公開予定です。プロジェクトページ: https://hyeonho99.github.io/reangle-a-video/
English
We introduce Reangle-A-Video, a unified framework for generating synchronized
multi-view videos from a single input video. Unlike mainstream approaches that
train multi-view video diffusion models on large-scale 4D datasets, our method
reframes the multi-view video generation task as video-to-videos translation,
leveraging publicly available image and video diffusion priors. In essence,
Reangle-A-Video operates in two stages. (1) Multi-View Motion Learning: An
image-to-video diffusion transformer is synchronously fine-tuned in a
self-supervised manner to distill view-invariant motion from a set of warped
videos. (2) Multi-View Consistent Image-to-Images Translation: The first frame
of the input video is warped and inpainted into various camera perspectives
under an inference-time cross-view consistency guidance using DUSt3R,
generating multi-view consistent starting images. Extensive experiments on
static view transport and dynamic camera control show that Reangle-A-Video
surpasses existing methods, establishing a new solution for multi-view video
generation. We will publicly release our code and data. Project page:
https://hyeonho99.github.io/reangle-a-video/Summary
AI-Generated Summary