VideoFrom3D: 보완적 이미지 및 비디오 확산 모델을 통한 3D 장면 비디오 생성
VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models
September 22, 2025
저자: Geonung Kim, Janghyeok Han, Sunghyun Cho
cs.AI
초록
본 논문에서는 거친 기하학적 구조, 카메라 궤적, 그리고 참조 이미지로부터 고품질의 3D 장면 비디오를 합성하기 위한 새로운 프레임워크인 VideoFrom3D를 제안합니다. 우리의 접근 방식은 3D 그래픽 디자인 워크플로를 간소화하여 유연한 디자인 탐색과 신속한 결과물 생산을 가능하게 합니다. 거친 기하학적 구조로부터 비디오를 합성하는 직관적인 방법은 비디오 확산 모델을 기하학적 구조에 기반하여 조건화하는 것일 수 있습니다. 그러나 기존의 비디오 확산 모델은 시각적 품질, 움직임, 그리고 시간적 일관성을 동시에 모델링하는 데 어려움을 겪기 때문에 복잡한 장면에 대해 고품질의 결과를 생성하는 데 한계가 있습니다. 이를 해결하기 위해, 우리는 이미지와 비디오 확산 모델의 상호 보완적인 강점을 활용하는 생성 프레임워크를 제안합니다. 구체적으로, 우리의 프레임워크는 Sparse Anchor-view Generation (SAG) 모듈과 Geometry-guided Generative Inbetweening (GGI) 모듈로 구성됩니다. SAG 모듈은 Sparse Appearance-guided Sampling을 통해 이미지 확산 모델을 사용하여 고품질의 크로스 뷰 일관성을 가진 앵커 뷰를 생성합니다. 이러한 앵커 뷰를 기반으로, GGI 모듈은 플로우 기반 카메라 제어와 구조적 가이던스를 통해 비디오 확산 모델을 사용하여 중간 프레임을 충실하게 보간합니다. 특히, 두 모듈 모두 3D 장면 모델과 자연 이미지의 페어링된 데이터셋 없이도 작동하며, 이러한 데이터셋은 얻기가 매우 어렵습니다. 포괄적인 실험을 통해 우리의 방법이 다양한 도전적인 시나리오에서 고품질의 스타일 일관성을 가진 장면 비디오를 생성하며, 단순하고 확장된 베이스라인을 능가함을 보여줍니다.
English
In this paper, we propose VideoFrom3D, a novel framework for synthesizing
high-quality 3D scene videos from coarse geometry, a camera trajectory, and a
reference image. Our approach streamlines the 3D graphic design workflow,
enabling flexible design exploration and rapid production of deliverables. A
straightforward approach to synthesizing a video from coarse geometry might
condition a video diffusion model on geometric structure. However, existing
video diffusion models struggle to generate high-fidelity results for complex
scenes due to the difficulty of jointly modeling visual quality, motion, and
temporal consistency. To address this, we propose a generative framework that
leverages the complementary strengths of image and video diffusion models.
Specifically, our framework consists of a Sparse Anchor-view Generation (SAG)
and a Geometry-guided Generative Inbetweening (GGI) module. The SAG module
generates high-quality, cross-view consistent anchor views using an image
diffusion model, aided by Sparse Appearance-guided Sampling. Building on these
anchor views, GGI module faithfully interpolates intermediate frames using a
video diffusion model, enhanced by flow-based camera control and structural
guidance. Notably, both modules operate without any paired dataset of 3D scene
models and natural images, which is extremely difficult to obtain.
Comprehensive experiments show that our method produces high-quality,
style-consistent scene videos under diverse and challenging scenarios,
outperforming simple and extended baselines.