DimensionX: 単一画像から制御可能なビデオ拡散を用いて任意の3Dおよび4Dシーンを生成
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion
November 7, 2024
著者: Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang
cs.AI
要旨
本論文では、単一の画像とビデオ拡散からフォトリアルな3Dおよび4Dシーンを生成するためのフレームワークであるDimensionXを紹介する。我々のアプローチは、3Dシーンの空間構造と4Dシーンの時間的進化の両方が、ビデオフレームのシーケンスを通じて効果的に表現できるという洞察から始まる。最近のビデオ拡散モデルは鮮やかなビジュアルを生成する点で顕著な成功を収めているが、生成中の空間的および時間的制御性の限界から、直接的に3D/4Dシーンを復元するには課題がある。これを克服するため、我々はST-Directorを提案し、次元変動データから次元認識型LoRAを学習することで、ビデオ拡散における空間的および時間的要因を分離する。この制御可能なビデオ拡散アプローチにより、空間構造と時間的ダイナミクスを精密に操作し、空間的および時間的次元の組み合わせを通じてシーケンシャルフレームから3Dおよび4D表現を再構築することが可能となる。さらに、生成されたビデオと現実世界のシーンの間のギャップを埋めるため、3D生成のための軌跡認識メカニズムと、4D生成のための同一性保持型ノイズ除去戦略を導入する。様々な現実世界および合成データセットを用いた広範な実験により、DimensionXが従来の手法と比較して、制御可能なビデオ生成および3D/4Dシーン生成において優れた結果を達成することが示された。
English
In this paper, we introduce DimensionX, a framework designed to
generate photorealistic 3D and 4D scenes from just a single image with video
diffusion. Our approach begins with the insight that both the spatial structure
of a 3D scene and the temporal evolution of a 4D scene can be effectively
represented through sequences of video frames. While recent video diffusion
models have shown remarkable success in producing vivid visuals, they face
limitations in directly recovering 3D/4D scenes due to limited spatial and
temporal controllability during generation. To overcome this, we propose
ST-Director, which decouples spatial and temporal factors in video diffusion by
learning dimension-aware LoRAs from dimension-variant data. This controllable
video diffusion approach enables precise manipulation of spatial structure and
temporal dynamics, allowing us to reconstruct both 3D and 4D representations
from sequential frames with the combination of spatial and temporal dimensions.
Additionally, to bridge the gap between generated videos and real-world scenes,
we introduce a trajectory-aware mechanism for 3D generation and an
identity-preserving denoising strategy for 4D generation. Extensive experiments
on various real-world and synthetic datasets demonstrate that DimensionX
achieves superior results in controllable video generation, as well as in 3D
and 4D scene generation, compared with previous methods.