GaMO: 희소 뷰 3D 재구성을 위한 기하학 인식 다중 뷰 확산 외삽법
GaMO: Geometry-aware Multi-view Diffusion Outpainting for Sparse-View 3D Reconstruction
December 31, 2025
저자: Yi-Chuan Huang, Hao-Jen Chien, Chin-Yang Lin, Ying-Huan Chen, Yu-Lun Liu
cs.AI
초록
3차원 재구성 기술의 최근 발전은 조밀한 다중 시점 이미지로부터 고품질 장면 복원에 있어 주목할만한 진전을 이루었으나, 입력 시점이 제한될 경우 어려움을 겪습니다. 이러한 문제를 해결하기 위해 정규화 기법, 시맨틱 사전지식, 기하학적 제약 조건 등 다양한 접근법이 도입되었습니다. 최근 등장한 디퓨전 기반 방법들은 새로운 카메라 포즈에서의 신규 시점을 생성하여 훈련 데이터를 증강함으로써 기존 정규화 및 사전지식 기반 기법을 능가하는 상당한 개선을 입증했습니다. 그러나 이러한 최첨단 접근법에도 세 가지 중요한 한계점이 존재합니다: 알려진 시점 주변부를 벗어난 불충분한 커버리지, 생성된 시점 간의 기하학적 불일치, 그리고 계산 비용이 많이 드는 파이프라인이 바로 그것입니다. 본 논문에서는 다중 시점 외삽을 통해 희소 시점 재구성을 재정의하는 GaMO(Geometry-aware Multi-view Outpainter) 프레임워크를 소개합니다. GaMO는 새로운 시점을 생성하는 대신 기존 카메라 포즈에서 시야각을 확장함으로써 기하학적 일관성을 본질적으로 보존하면서 더 넓은 장면 커버리지를 제공합니다. 우리의 접근법은 훈련 없이 제로샷 방식으로 다중 시점 조건화 및 기하학 인식 잡음 제거 전략을 활용합니다. Replica 및 ScanNet++에 대한 광범위한 실험을 통해 3, 6, 9개의 입력 시점에서 최첨단 재구성 품질을 입증하였으며, PSNR과 LPIPS 기준으로 기존 방법들을 능가하는 동시에 SOTA 디퓨전 기반 방법 대비 25배 빠른 속도(10분 미만 처리 시간)를 달성했습니다. 프로젝트 페이지: https://yichuanh.github.io/GaMO/
English
Recent advances in 3D reconstruction have achieved remarkable progress in high-quality scene capture from dense multi-view imagery, yet struggle when input views are limited. Various approaches, including regularization techniques, semantic priors, and geometric constraints, have been implemented to address this challenge. Latest diffusion-based methods have demonstrated substantial improvements by generating novel views from new camera poses to augment training data, surpassing earlier regularization and prior-based techniques. Despite this progress, we identify three critical limitations in these state-of-the-art approaches: inadequate coverage beyond known view peripheries, geometric inconsistencies across generated views, and computationally expensive pipelines. We introduce GaMO (Geometry-aware Multi-view Outpainter), a framework that reformulates sparse-view reconstruction through multi-view outpainting. Instead of generating new viewpoints, GaMO expands the field of view from existing camera poses, which inherently preserves geometric consistency while providing broader scene coverage. Our approach employs multi-view conditioning and geometry-aware denoising strategies in a zero-shot manner without training. Extensive experiments on Replica and ScanNet++ demonstrate state-of-the-art reconstruction quality across 3, 6, and 9 input views, outperforming prior methods in PSNR and LPIPS, while achieving a 25times speedup over SOTA diffusion-based methods with processing time under 10 minutes. Project page: https://yichuanh.github.io/GaMO/