Voyager: 탐색 가능한 3D 장면 생성을 위한 장거리 및 세계 일관성 비디오 확산 모델
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
June 4, 2025
저자: Tianyu Huang, Wangguandong Zheng, Tengfei Wang, Yuhao Liu, Zhenwei Wang, Junta Wu, Jie Jiang, Hui Li, Rynson W. H. Lau, Wangmeng Zuo, Chunchao Guo
cs.AI
초록
비디오 게임과 가상 현실과 같은 실제 세계의 응용 프로그램들은 종종 사용자가 정의한 카메라 궤적을 따라 탐색할 수 있는 3D 장면을 모델링할 수 있는 능력을 요구합니다. 텍스트나 이미지로부터 3D 객체를 생성하는 데 있어서는 상당한 진전이 있었지만, 장거리, 3D 일관성, 탐색 가능한 3D 장면을 생성하는 것은 여전히 복잡하고 어려운 문제로 남아 있습니다. 본 연구에서는 사용자 정의 카메라 경로를 통해 단일 이미지로부터 세계 일관적인 3D 포인트 클라우드 시퀀스를 생성하는 새로운 비디오 확산 프레임워크인 Voyager를 제시합니다. 기존 접근 방식과 달리, Voyager는 프레임 간의 내재적 일관성을 통해 엔드투엔드 장면 생성 및 재구성을 달성하며, 3D 재구성 파이프라인(예: 구조적 모션 추정 또는 다중 뷰 스테레오)의 필요성을 제거합니다. 우리의 방법은 세 가지 주요 구성 요소를 통합합니다: 1) 세계 일관적인 비디오 확산: 기존 세계 관찰을 조건으로 하여 정렬된 RGB 및 깊이 비디오 시퀀스를 공동으로 생성하는 통합 아키텍처, 2) 장거리 세계 탐색: 포인트 컬링과 자동 회귀 추론을 통한 효율적인 세계 캐시 및 컨텍스트 인식 일관성을 통한 반복적 장면 확장을 위한 부드러운 비디오 샘플링, 3) 확장 가능한 데이터 엔진: 임의의 비디오에 대해 카메라 포즈 추정 및 메트릭 깊이 예측을 자동화하는 비디오 재구성 파이프라인으로, 수동 3D 주석 없이도 대규모, 다양한 훈련 데이터 큐레이션을 가능하게 합니다. 이러한 설계는 시각적 품질과 기하학적 정확성에서 기존 방법보다 명확한 개선을 가져오며, 다양한 응용 프로그램에 적용 가능합니다.
English
Real-world applications like video gaming and virtual reality often demand
the ability to model 3D scenes that users can explore along custom camera
trajectories. While significant progress has been made in generating 3D objects
from text or images, creating long-range, 3D-consistent, explorable 3D scenes
remains a complex and challenging problem. In this work, we present Voyager, a
novel video diffusion framework that generates world-consistent 3D point-cloud
sequences from a single image with user-defined camera path. Unlike existing
approaches, Voyager achieves end-to-end scene generation and reconstruction
with inherent consistency across frames, eliminating the need for 3D
reconstruction pipelines (e.g., structure-from-motion or multi-view stereo).
Our method integrates three key components: 1) World-Consistent Video
Diffusion: A unified architecture that jointly generates aligned RGB and depth
video sequences, conditioned on existing world observation to ensure global
coherence 2) Long-Range World Exploration: An efficient world cache with point
culling and an auto-regressive inference with smooth video sampling for
iterative scene extension with context-aware consistency, and 3) Scalable Data
Engine: A video reconstruction pipeline that automates camera pose estimation
and metric depth prediction for arbitrary videos, enabling large-scale, diverse
training data curation without manual 3D annotations. Collectively, these
designs result in a clear improvement over existing methods in visual quality
and geometric accuracy, with versatile applications.