ChatPaper.aiChatPaper

멀티뷰 피라미드 트랜스포머: 더 넓게 보기 위해 더 넓은 시야로

Multi-view Pyramid Transformer: Look Coarser to See Broader

December 8, 2025
저자: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI

초록

본 논문에서는 Multi-view Pyramid Transformer(MVP)를 제안한다. MVP는 수십에서 수백 장의 이미지를 단일 순전파만으로 대규모 3D 장면을 직접 복원하는 확장 가능한 다중 뷰 트랜스포머 아키텍처이다. "넓게 보아 전체를 보고, 세밀하게 보아 디테일을 본다"는 아이디어에 기반하여 MVP는 두 가지 핵심 설계 원칙으로 구성된다: 1) 로컬 뷰에서 그룹, 최종적으로 전체 장면에 이르기까지 모델의 시각을 점진적으로 확장하는 지역-전역 간 뷰 계층 구조, 2) 상세한 공간 표현에서 시작하여 점진적으로 정보가 밀집된 컴팩트 토큰으로 집계하는 세밀-거친 내부 뷰 계층 구조. 이 이중 계층 구조는 계산 효율성과 표현적 풍부함을 동시에 달성하여 크고 복잡한 장면의 빠른 복원을 가능하게 한다. 다양한 데이터셋에서 MVP를 검증한 결과, 기본 3D 표현으로 3D Gaussian Splatting과 결합 시 광범위한 뷰 구성에서 높은 효율성과 확장성을 유지하면서 최첨단 일반화 복원 품질을 달성함을 확인하였다.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.
PDF182December 10, 2025