ChatPaper.aiChatPaper

VideoRFSplat: 유연한 포즈 및 다중 뷰 공동 모델링을 통한 장면 수준 텍스트-3D 가우시안 스플래팅 직접 생성

VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

March 20, 2025
저자: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI

초록

우리는 비디오 생성 모델을 활용하여 무한한 실세계 장면에 대한 사실적인 3D 가우시안 스플래팅(3DGS)을 생성하는 직접적인 텍스트-3D 모델인 VideoRFSplat을 제안합니다. 다양한 카메라 포즈와 무한한 공간 범위의 실세계 장면을 생성하면서도 임의의 텍스트 프롬프트에 대한 일반화를 보장하기 위해, 기존 방법들은 2D 생성 모델을 미세 조정하여 카메라 포즈와 다중 뷰 이미지를 함께 모델링했습니다. 그러나 이러한 방법들은 모달리티 간의 차이로 인해 2D 생성 모델을 공동 모델링으로 확장할 때 불안정성을 겪으며, 이는 훈련과 추론을 안정화하기 위해 추가 모델을 필요로 합니다. 본 연구에서는 비디오 생성 모델을 미세 조정할 때 다중 뷰 이미지와 카메라 포즈를 공동으로 모델링하기 위한 아키텍처와 샘플링 전략을 제안합니다. 우리의 핵심 아이디어는 사전 훈련된 비디오 생성 모델과 전용 포즈 생성 모델을 통신 블록을 통해 연결하는 이중 스트림 아키텍처로, 별도의 스트림을 통해 다중 뷰 이미지와 카메라 포즈를 생성합니다. 이 설계는 포즈와 이미지 모달리티 간의 간섭을 줄입니다. 또한, 우리는 다중 뷰 이미지보다 카메라 포즈를 더 빠르게 노이즈 제거하는 비동기적 샘플링 전략을 제안하여, 빠르게 노이즈가 제거된 포즈가 다중 뷰 생성을 조건화하도록 함으로써 상호 모호성을 줄이고 크로스 모달 일관성을 강화합니다. 여러 대규모 실세계 데이터셋(RealEstate10K, MVImgNet, DL3DV-10K, ACID)에서 훈련된 VideoRFSplat은 스코어 증류 샘플링을 통한 사후 정제에 크게 의존하는 기존의 텍스트-3D 직접 생성 방법들을 능가하며, 이러한 정제 없이도 우수한 결과를 달성합니다.
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video generation model to generate realistic 3D Gaussian Splatting (3DGS) for unbounded real-world scenes. To generate diverse camera poses and unbounded spatial extent of real-world scenes, while ensuring generalization to arbitrary text prompts, previous methods fine-tune 2D generative models to jointly model camera poses and multi-view images. However, these methods suffer from instability when extending 2D generative models to joint modeling due to the modality gap, which necessitates additional models to stabilize training and inference. In this work, we propose an architecture and a sampling strategy to jointly model multi-view images and camera poses when fine-tuning a video generation model. Our core idea is a dual-stream architecture that attaches a dedicated pose generation model alongside a pre-trained video generation model via communication blocks, generating multi-view images and camera poses through separate streams. This design reduces interference between the pose and image modalities. Additionally, we propose an asynchronous sampling strategy that denoises camera poses faster than multi-view images, allowing rapidly denoised poses to condition multi-view generation, reducing mutual ambiguity and enhancing cross-modal consistency. Trained on multiple large-scale real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms existing text-to-3D direct generation methods that heavily depend on post-hoc refinement via score distillation sampling, achieving superior results without such refinement.

Summary

AI-Generated Summary

PDF32March 21, 2025