Mehransichten-Pyramiden-Transformer: Grobmustriger Blick für umfassendere Sicht
Multi-view Pyramid Transformer: Look Coarser to See Broader
December 8, 2025
papers.authors: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI
papers.abstract
Wir schlagen den Multi-view Pyramid Transformer (MVP) vor, eine skalierbare Multi-View-Transformer-Architektur, die große 3D-Szenen direkt aus Dutzenden bis Hunderten von Bildern in einem einzigen Vorwärtsdurchlauf rekonstruiert. Inspiriert von der Idee „weiter blicken, um das Ganze zu sehen, genauer blicken, um die Details zu sehen“, basiert MVP auf zwei zentralen Designprinzipien: 1) einer lokalen-zu-globalen Inter-View-Hierarchie, die die Perspektive des Modells schrittweise von lokalen Ansichten über Gruppen bis hin zur gesamten Szene erweitert, und 2) einer fein-zu-grob Intra-View-Hierarchie, die von detaillierten räumlichen Repräsentationen ausgeht und diese schrittweise zu kompakten, informationsdichten Tokens aggregiert. Diese duale Hierarchie erreicht sowohl Recheneffizienz als auch Repräsentationsreichhaltigkeit und ermöglicht so die schnelle Rekonstruktion großer und komplexer Szenen. Wir validieren MVP auf verschiedenen Datensätzen und zeigen, dass es in Kombination mit 3D Gaussian Splatting als zugrundeliegender 3D-Repräsentation state-of-the-art generalisierbare Rekonstruktionsqualität erreicht, während es gleichzeitig hohe Effizienz und Skalierbarkeit über ein breites Spektrum von Blickkonfigurationen hinweg beibehält.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.