Pyramide de Transformers Multi-Vues : Regarder Plus Large pour Voir Plus Loin
Multi-view Pyramid Transformer: Look Coarser to See Broader
December 8, 2025
papers.authors: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI
papers.abstract
Nous proposons MVP (Multi-view Pyramid Transformer), une architecture de transformeur multi-vues évolutive qui reconstruit directement de grandes scènes 3D à partir de dizaines à des centaines d'images en une seule passe avant. S'inspirant de l'idée « regarder plus large pour voir l'ensemble, regarder plus fin pour voir les détails », MVP repose sur deux principes de conception fondamentaux : 1) une hiérarchie inter-vues locale-vers-globale qui élargit progressivement la perspective du modèle des vues locales vers des groupes, et finalement vers la scène entière, et 2) une hiérarchie intra-vues fine-vers-grossière qui part de représentations spatiales détaillées et les agrège progressivement en tokens compacts et riches en information. Cette double hiérarchie concilie efficacité computationnelle et richesse représentationnelle, permettant une reconstruction rapide de scènes vastes et complexes. Nous validons MVP sur divers jeux de données et montrons que, couplé au *3D Gaussian Splatting* comme représentation 3D sous-jacente, il atteint une qualité de reconstruction généralisable à l'état de l'art tout en maintenant une haute efficacité et une grande évolutivité pour une large gamme de configurations de vues.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.