3DGStream: 포토리얼리스틱 자유시점 비디오의 효율적 스트리밍을 위한 3D 가우시안의 실시간 학습
3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
March 3, 2024
저자: Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing
cs.AI
초록
다중 뷰 비디오로부터 동적 장면의 사실적인 자유 시점 비디오(Free-Viewpoint Videos, FVVs)를 구성하는 것은 여전히 어려운 과제로 남아 있습니다. 최신 신경 렌더링 기술이 놀라운 발전을 이루었음에도 불구하고, 이러한 방법들은 일반적으로 오프라인 학습을 위해 전체 비디오 시퀀스를 필요로 하며 실시간 렌더링이 불가능합니다. 이러한 제약을 해결하기 위해, 우리는 실제 동적 장면의 효율적인 FVV 스트리밍을 위해 설계된 3DGStream 방법을 소개합니다. 우리의 방법은 프레임당 12초 이내의 빠른 실시간 재구성과 200 FPS의 실시간 렌더링을 달성합니다. 구체적으로, 우리는 장면을 표현하기 위해 3D 가우시안(3DGs)을 활용합니다. 프레임별로 3DGs를 직접 최적화하는 단순한 접근 방식 대신, 우리는 3DGs의 이동과 회전을 모델링하기 위해 간결한 신경 변환 캐시(Neural Transformation Cache, NTC)를 사용하여 각 FVV 프레임에 필요한 학습 시간과 저장 공간을 크게 줄였습니다. 또한, 동적 장면에서 새롭게 등장하는 객체를 처리하기 위해 적응형 3DG 추가 전략을 제안합니다. 실험 결과, 3DGStream은 최신 방법들과 비교하여 렌더링 속도, 이미지 품질, 학습 시간, 모델 저장 공간 측면에서 경쟁력 있는 성능을 보여줍니다.
English
Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes
from multi-view videos remains a challenging endeavor. Despite the remarkable
advancements achieved by current neural rendering techniques, these methods
generally require complete video sequences for offline training and are not
capable of real-time rendering. To address these constraints, we introduce
3DGStream, a method designed for efficient FVV streaming of real-world dynamic
scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12
seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D
Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of
directly optimizing 3DGs per-frame, we employ a compact Neural Transformation
Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing
the training time and storage required for each FVV frame. Furthermore, we
propose an adaptive 3DG addition strategy to handle emerging objects in dynamic
scenes. Experiments demonstrate that 3DGStream achieves competitive performance
in terms of rendering speed, image quality, training time, and model storage
when compared with state-of-the-art methods.