Lyra: 비디오 확산 모델을 통한 생성적 3D 장면 재구성 및 자기 증류
Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation
September 23, 2025
저자: Sherwin Bahmani, Tianchang Shen, Jiawei Ren, Jiahui Huang, Yifeng Jiang, Haithem Turki, Andrea Tagliasacchi, David B. Lindell, Zan Gojcic, Sanja Fidler, Huan Ling, Jun Gao, Xuanchi Ren
cs.AI
초록
가상 환경을 생성하는 능력은 게임부터 로보틱스, 자율 주행, 산업용 AI와 같은 물리적 AI 영역에 이르기까지 다양한 응용 분야에서 중요합니다. 현재의 학습 기반 3D 재구성 방법은 실제 세계의 다중 시점 데이터 캡처가 가능해야 하지만, 이러한 데이터가 항상 쉽게 구할 수 있는 것은 아닙니다. 최근 비디오 확산 모델(video diffusion models)의 발전은 놀라운 상상력을 보여주었지만, 이들의 2D 특성으로 인해 로봇이 환경을 탐색하고 상호작용해야 하는 시뮬레이션 응용에는 한계가 있습니다. 본 논문에서는 비디오 확산 모델에 내재된 3D 지식을 명시적인 3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS) 표현으로 추출하여 다중 시점 학습 데이터의 필요성을 제거하는 자기 증류(self-distillation) 프레임워크를 제안합니다. 구체적으로, 우리는 일반적인 RGB 디코더에 3DGS 디코더를 추가하고, 이 디코더가 RGB 디코더의 출력으로부터 학습되도록 합니다. 이 접근법을 통해 3DGS 디코더는 비디오 확산 모델로 생성된 합성 데이터만으로도 순수하게 학습될 수 있습니다. 추론 시, 우리의 모델은 텍스트 프롬프트나 단일 이미지로부터 실시간 렌더링을 위한 3D 장면을 합성할 수 있습니다. 또한, 우리의 프레임워크는 단안 입력 비디오로부터 동적 3D 장면 생성으로 확장됩니다. 실험 결과는 우리의 프레임워크가 정적 및 동적 3D 장면 생성에서 최첨단 성능을 달성함을 보여줍니다.
English
The ability to generate virtual environments is crucial for applications
ranging from gaming to physical AI domains such as robotics, autonomous
driving, and industrial AI. Current learning-based 3D reconstruction methods
rely on the availability of captured real-world multi-view data, which is not
always readily available. Recent advancements in video diffusion models have
shown remarkable imagination capabilities, yet their 2D nature limits the
applications to simulation where a robot needs to navigate and interact with
the environment. In this paper, we propose a self-distillation framework that
aims to distill the implicit 3D knowledge in the video diffusion models into an
explicit 3D Gaussian Splatting (3DGS) representation, eliminating the need for
multi-view training data. Specifically, we augment the typical RGB decoder with
a 3DGS decoder, which is supervised by the output of the RGB decoder. In this
approach, the 3DGS decoder can be purely trained with synthetic data generated
by video diffusion models. At inference time, our model can synthesize 3D
scenes from either a text prompt or a single image for real-time rendering. Our
framework further extends to dynamic 3D scene generation from a monocular input
video. Experimental results show that our framework achieves state-of-the-art
performance in static and dynamic 3D scene generation.