Transformador Piramidal de Múltiples Vistas: Mirar Más Grueso para Ver Más Amplio
Multi-view Pyramid Transformer: Look Coarser to See Broader
December 8, 2025
Autores: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI
Resumen
Proponemos MVP (Multi-view Pyramid Transformer), una arquitectura transformadora multivista escalable que reconstruye directamente grandes escenas 3D a partir de decenas o cientos de imágenes en un único pase hacia adelante. Basándose en la idea de "mirar más amplio para ver el todo, mirar más fino para ver los detalles", MVP se construye sobre dos principios de diseño fundamentales: 1) una jerarquía inter-vista de local a global que amplía gradualmente la perspectiva del modelo desde vistas locales a grupos y finalmente a la escena completa, y 2) una jerarquía intra-vista de fino a grueso que parte de representaciones espaciales detalladas y las agrega progresivamente en tokens compactos y densos en información. Esta doble jerarquía logra tanto eficiencia computacional como riqueza representacional, permitiendo la reconstrucción rápida de escenas grandes y complejas. Validamos MVP en diversos conjuntos de datos y demostramos que, cuando se combina con 3D Gaussian Splatting como representación 3D subyacente, alcanza una calidad de reconstrucción generalizable state-of-the-art, manteniendo al mismo tiempo una alta eficiencia y escalabilidad en una amplia gama de configuraciones de vista.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.