DimensionX : Créez n'importe quelle scène en 3D et 4D à partir d'une seule image avec une diffusion vidéo contrôlable
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion
November 7, 2024
papers.authors: Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang
cs.AI
papers.abstract
Dans cet article, nous présentons DimensionX, un cadre conçu pour générer des scènes 3D et 4D photoréalistes à partir d'une seule image grâce à la diffusion vidéo. Notre approche repose sur l'idée que la structure spatiale d'une scène 3D et l'évolution temporelle d'une scène 4D peuvent être efficacement représentées par des séquences d'images vidéo. Bien que les modèles récents de diffusion vidéo aient montré un succès remarquable dans la production de visuels saisissants, ils rencontrent des limitations pour reconstruire directement des scènes 3D/4D en raison d'une contrôlabilité spatiale et temporelle limitée lors de la génération. Pour surmonter cela, nous proposons ST-Director, qui découple les facteurs spatiaux et temporels dans la diffusion vidéo en apprenant des LoRAs sensibles aux dimensions à partir de données variant selon les dimensions. Cette approche de diffusion vidéo contrôlable permet une manipulation précise de la structure spatiale et de la dynamique temporelle, nous permettant de reconstruire à la fois des représentations 3D et 4D à partir de séquences d'images combinant les dimensions spatiales et temporelles. De plus, pour combler l'écart entre les vidéos générées et les scènes du monde réel, nous introduisons un mécanisme de génération 3D conscient des trajectoires et une stratégie de débruitage préservant l'identité pour la génération 4D. Des expériences approfondies sur divers ensembles de données réels et synthétiques démontrent que DimensionX obtient des résultats supérieurs en génération vidéo contrôlable, ainsi qu'en génération de scènes 3D et 4D, par rapport aux méthodes précédentes.
English
In this paper, we introduce DimensionX, a framework designed to
generate photorealistic 3D and 4D scenes from just a single image with video
diffusion. Our approach begins with the insight that both the spatial structure
of a 3D scene and the temporal evolution of a 4D scene can be effectively
represented through sequences of video frames. While recent video diffusion
models have shown remarkable success in producing vivid visuals, they face
limitations in directly recovering 3D/4D scenes due to limited spatial and
temporal controllability during generation. To overcome this, we propose
ST-Director, which decouples spatial and temporal factors in video diffusion by
learning dimension-aware LoRAs from dimension-variant data. This controllable
video diffusion approach enables precise manipulation of spatial structure and
temporal dynamics, allowing us to reconstruct both 3D and 4D representations
from sequential frames with the combination of spatial and temporal dimensions.
Additionally, to bridge the gap between generated videos and real-world scenes,
we introduce a trajectory-aware mechanism for 3D generation and an
identity-preserving denoising strategy for 4D generation. Extensive experiments
on various real-world and synthetic datasets demonstrate that DimensionX
achieves superior results in controllable video generation, as well as in 3D
and 4D scene generation, compared with previous methods.