ChatPaper.aiChatPaper

SV4D: マルチフレームおよびマルチビュー整合性を備えた動的3Dコンテンツ生成

SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

July 24, 2024
著者: Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, Varun Jampani
cs.AI

要旨

本論文では、多フレーム・多視点にわたる一貫性のある動的3Dコンテンツ生成のための潜在空間ビデオ拡散モデル「Stable Video 4D (SV4D)」を提案する。従来手法では、ビデオ生成と新視点合成のために別々に訓練された生成モデルに依存していたが、我々は動的3Dオブジェクトの新視点ビデオを生成するための統合拡散モデルを設計した。具体的には、単眼参照ビデオを入力として、SV4Dは各ビデオフレームに対して時間的に一貫した新視点を生成する。その後、生成された新視点ビデオを用いて、暗黙的な4D表現(動的NeRF)を効率的に最適化する。これにより、従来の研究で一般的に用いられていた煩雑なSDSベースの最適化を必要としない。我々の統合新視点ビデオ生成モデルを訓練するために、既存のObjaverseデータセットから動的3Dオブジェクトデータセットを構築した。複数のデータセットとユーザスタディによる広範な実験結果は、SV4Dが新視点ビデオ合成および4D生成において、従来手法と比較して最先端の性能を発揮することを示している。
English
We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D's state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

Summary

AI-Generated Summary

PDF162November 28, 2024