LongSplat: 캐주얼한 장영상 처리를 위한 강건한 비포즈 3D 가우시안 스플래팅
LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos
August 19, 2025
저자: Chin-Yang Lin, Cheng Sun, Fu-En Yang, Min-Hung Chen, Yen-Yu Lin, Yu-Lun Liu
cs.AI
초록
LongSplat은 불규칙한 카메라 움직임, 알려지지 않은 카메라 포즈, 그리고 광활한 장면으로 특징지어지는 캐주얼하게 촬영된 긴 동영상으로부터 새로운 시점 합성(Novel View Synthesis, NVS)의 중요한 과제를 해결합니다. 기존 방법들은 종종 포즈 드리프트, 부정확한 기하학적 초기화, 그리고 심각한 메모리 제약으로 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 LongSplat을 소개합니다. 이는 강력한 포즈 미지정 3D 가우시안 스플래팅 프레임워크로, 다음과 같은 특징을 갖추고 있습니다: (1) 로컬 최소값을 피하고 전역 일관성을 보장하기 위해 카메라 포즈와 3D 가우시안을 동시에 최적화하는 증분적 결합 최적화, (2) 학습된 3D 사전 지식을 활용한 강력한 포즈 추정 모듈, 그리고 (3) 공간 밀도에 기반하여 조밀한 포인트 클라우드를 앵커로 변환하는 효율적인 옥트리 앵커 형성 메커니즘. 도전적인 벤치마크에서의 광범위한 실험을 통해 LongSplat이 기존 접근법에 비해 렌더링 품질, 포즈 정확도, 그리고 계산 효율성을 크게 개선하며 최첨단 결과를 달성함을 입증했습니다. 프로젝트 페이지: https://linjohnss.github.io/longsplat/
English
LongSplat addresses critical challenges in novel view synthesis (NVS) from
casually captured long videos characterized by irregular camera motion, unknown
camera poses, and expansive scenes. Current methods often suffer from pose
drift, inaccurate geometry initialization, and severe memory limitations. To
address these issues, we introduce LongSplat, a robust unposed 3D Gaussian
Splatting framework featuring: (1) Incremental Joint Optimization that
concurrently optimizes camera poses and 3D Gaussians to avoid local minima and
ensure global consistency; (2) a robust Pose Estimation Module leveraging
learned 3D priors; and (3) an efficient Octree Anchor Formation mechanism that
converts dense point clouds into anchors based on spatial density. Extensive
experiments on challenging benchmarks demonstrate that LongSplat achieves
state-of-the-art results, substantially improving rendering quality, pose
accuracy, and computational efficiency compared to prior approaches. Project
page: https://linjohnss.github.io/longsplat/