マルチビューピラミッドトランスフォーマー:より粗く見て、より広く捉える
Multi-view Pyramid Transformer: Look Coarser to See Broader
December 8, 2025
著者: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI
要旨
我々は、Multi-view Pyramid Transformer (MVP)を提案する。これは数十から数百枚の画像から大規模3Dシーンを単一のフォワードパスで直接再構築するスケーラブルなマルチビュートランスフォーマーアーキテクチャである。「全体を見るには広く、細部を見るには緻密に」という考え方に基づき、MVPは二つの核心的な設計原理で構築されている:1) ローカルビューからグループ、最終的にシーン全体へとモデルの視野を段階的に拡大する「ローカルからグローバルへのビュー間階層」、2) 詳細な空間表現から始め、それらを段階的にコンパクトで情報密度の高いトークンへ集約する「細密から粗密へのビュー内階層」。この二重階層構造は計算効率と表現力の豊かさを両立し、大規模で複雑なシーンの高速再構築を可能にする。我々は多様なデータセットでMVPを検証し、基盤の3D表現として3D Gaussian Splattingと組み合わせることで、幅広いビュー設定において高い効率性とスケーラビリティを維持しつつ、汎用的な再構築品質で最先端の性能を達成することを示す。
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.