ChatPaper.aiChatPaper

DimensionX: 단일 이미지로부터 제어 가능한 비디오 확산을 통한 3D 및 4D 장면 생성

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion

November 7, 2024
저자: Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhang, Yikai Wang
cs.AI

초록

본 논문에서는 단일 이미지와 비디오 확산을 통해 사실적인 3D 및 4D 장면을 생성하도록 설계된 프레임워크인 DimensionX를 소개한다. 우리의 접근 방식은 3D 장면의 공간적 구조와 4D 장면의 시간적 변화 모두가 비디오 프레임 시퀀스를 통해 효과적으로 표현될 수 있다는 통찰에서 시작된다. 최근 비디오 확산 모델들은 생생한 시각적 결과물을 생성하는 데 있어 뛰어난 성과를 보여주었지만, 생성 과정에서 공간적 및 시간적 제어 가능성이 제한적이기 때문에 3D/4D 장면을 직접 복원하는 데 한계가 있다. 이를 극복하기 위해, 우리는 차원 변이 데이터로부터 차원 인식 LoRA를 학습함으로써 비디오 확산에서 공간적 및 시간적 요소를 분리하는 ST-Director를 제안한다. 이 제어 가능한 비디오 확산 접근법은 공간적 구조와 시간적 역학을 정밀하게 조작할 수 있게 하여, 공간적 및 시간적 차원의 조합을 통해 순차적 프레임으로부터 3D 및 4D 표현을 재구성할 수 있도록 한다. 또한, 생성된 비디오와 실제 장면 간의 격차를 줄이기 위해, 3D 생성을 위한 궤적 인식 메커니즘과 4D 생성을 위한 정체성 보존 잡음 제거 전략을 도입하였다. 다양한 실제 및 합성 데이터셋에 대한 광범위한 실험을 통해 DimensionX가 기존 방법들에 비해 제어 가능한 비디오 생성 및 3D 및 4D 장면 생성에서 우수한 결과를 달성함을 입증하였다.
English
In this paper, we introduce DimensionX, a framework designed to generate photorealistic 3D and 4D scenes from just a single image with video diffusion. Our approach begins with the insight that both the spatial structure of a 3D scene and the temporal evolution of a 4D scene can be effectively represented through sequences of video frames. While recent video diffusion models have shown remarkable success in producing vivid visuals, they face limitations in directly recovering 3D/4D scenes due to limited spatial and temporal controllability during generation. To overcome this, we propose ST-Director, which decouples spatial and temporal factors in video diffusion by learning dimension-aware LoRAs from dimension-variant data. This controllable video diffusion approach enables precise manipulation of spatial structure and temporal dynamics, allowing us to reconstruct both 3D and 4D representations from sequential frames with the combination of spatial and temporal dimensions. Additionally, to bridge the gap between generated videos and real-world scenes, we introduce a trajectory-aware mechanism for 3D generation and an identity-preserving denoising strategy for 4D generation. Extensive experiments on various real-world and synthetic datasets demonstrate that DimensionX achieves superior results in controllable video generation, as well as in 3D and 4D scene generation, compared with previous methods.
PDF574December 4, 2025