Meervoudig Perspectief Piramide Transformer: Kijk Grover om Breder te Zien
Multi-view Pyramid Transformer: Look Coarser to See Broader
December 8, 2025
Auteurs: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI
Samenvatting
Wij presenteren Multi-view Pyramid Transformer (MVP), een schaalbare multi-view transformerarchitectuur die grote 3D-scènes direct reconstrueert uit tientallen tot honderden afbeeldingen in één enkele voorwaartse doorloop. Geïnspireerd door het idee van "verder kijken om het geheel te zien, fijner kijken om details te zien", is MVP gebaseerd op twee kernontwerpprincipes: 1) een lokaal-naar-globaal inter-viewhiërarchie die het perspectief van het model geleidelijk verbreedt van lokale views naar groepen en uiteindelijk de volledige scène, en 2) een fijn-naar-grof intra-viewhiërarchie die start met gedetailleerde ruimtelijke representaties en deze progressief aggregeert tot compacte, informatie-dichte tokens. Deze dubbele hiërarchie bereikt zowel computationele efficiëntie als representatie-rijkdom, waardoor snelle reconstructie van grote en complexe scènes mogelijk wordt. Wij valideren MVP op diverse datasets en tonen aan dat, in combinatie met 3D Gaussian Splatting als onderliggende 3D-representatie, het state-of-the-art generaliseerbare reconstructiekwaliteit bereikt, terwijl het hoge efficiëntie en schaalbaarheid behoudt over een breed scala aan viewconfiguraties.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.