DimensionX : Créez n'importe quelle scène en 3D et 4D à partir d'une seule image avec une diffusion vidéo contrôlable

papers.abstract

Dans cet article, nous présentons DimensionX, un cadre conçu pour générer des scènes 3D et 4D photoréalistes à partir d'une seule image grâce à la diffusion vidéo. Notre approche repose sur l'idée que la structure spatiale d'une scène 3D et l'évolution temporelle d'une scène 4D peuvent être efficacement représentées par des séquences d'images vidéo. Bien que les modèles récents de diffusion vidéo aient montré un succès remarquable dans la production de visuels saisissants, ils rencontrent des limitations pour reconstruire directement des scènes 3D/4D en raison d'une contrôlabilité spatiale et temporelle limitée lors de la génération. Pour surmonter cela, nous proposons ST-Director, qui découple les facteurs spatiaux et temporels dans la diffusion vidéo en apprenant des LoRAs sensibles aux dimensions à partir de données variant selon les dimensions. Cette approche de diffusion vidéo contrôlable permet une manipulation précise de la structure spatiale et de la dynamique temporelle, nous permettant de reconstruire à la fois des représentations 3D et 4D à partir de séquences d'images combinant les dimensions spatiales et temporelles. De plus, pour combler l'écart entre les vidéos générées et les scènes du monde réel, nous introduisons un mécanisme de génération 3D conscient des trajectoires et une stratégie de débruitage préservant l'identité pour la génération 4D. Des expériences approfondies sur divers ensembles de données réels et synthétiques démontrent que DimensionX obtient des résultats supérieurs en génération vidéo contrôlable, ainsi qu'en génération de scènes 3D et 4D, par rapport aux méthodes précédentes.

English

In this paper, we introduce DimensionX, a framework designed to generate photorealistic 3D and 4D scenes from just a single image with video diffusion. Our approach begins with the insight that both the spatial structure of a 3D scene and the temporal evolution of a 4D scene can be effectively represented through sequences of video frames. While recent video diffusion models have shown remarkable success in producing vivid visuals, they face limitations in directly recovering 3D/4D scenes due to limited spatial and temporal controllability during generation. To overcome this, we propose ST-Director, which decouples spatial and temporal factors in video diffusion by learning dimension-aware LoRAs from dimension-variant data. This controllable video diffusion approach enables precise manipulation of spatial structure and temporal dynamics, allowing us to reconstruct both 3D and 4D representations from sequential frames with the combination of spatial and temporal dimensions. Additionally, to bridge the gap between generated videos and real-world scenes, we introduce a trajectory-aware mechanism for 3D generation and an identity-preserving denoising strategy for 4D generation. Extensive experiments on various real-world and synthetic datasets demonstrate that DimensionX achieves superior results in controllable video generation, as well as in 3D and 4D scene generation, compared with previous methods.

DimensionX : Créez n'importe quelle scène en 3D et 4D à partir d'une seule image avec une diffusion vidéo contrôlable

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

papers.abstract

Support