ChatPaper.aiChatPaper

Piramide Transformer a Vista Multipla: Guardare Più in Grande per Vedere Più Ampio

Multi-view Pyramid Transformer: Look Coarser to See Broader

December 8, 2025
Autori: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI

Abstract

Proponiamo MVP (Multi-view Pyramid Transformer), un'architettura transformer multi-vista scalabile che ricostruisce direttamente grandi scene 3D da decine a centinaia di immagini in un singolo passaggio in avanti. Ispirandosi all'idea di "guardare più ampio per vedere l'insieme, guardare più fine per vedere i dettagli", MVP si basa su due principi di progettazione fondamentali: 1) una gerarchia inter-vista da locale a globale che amplia gradualmente la prospettiva del modello da viste locali a gruppi e infine all'intera scena, e 2) una gerarchia intra-vista da fine a grossolana che parte da rappresentazioni spaziali dettagliate e le aggrega progressivamente in token compatti e ad alta densità informativa. Questa doppia gerarchia consente di ottenere sia efficienza computazionale che ricchezza rappresentativa, permettendo una ricostruzione rapida di scene ampie e complesse. Validiamo MVP su diversi dataset e dimostriamo che, se combinato con il Gaussian Splatting 3D come rappresentazione 3D sottostante, esso raggiunge una qualità di ricostruzione generalizzabile allo stato dell'arte, mantenendo al contempo elevata efficienza e scalabilità in un'ampia gamma di configurazioni di vista.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.
PDF182December 10, 2025