Пирамидальный трансформер с многопозиционным представлением: взгляд на общую картину для расширения кругозора
Multi-view Pyramid Transformer: Look Coarser to See Broader
December 8, 2025
Авторы: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park
cs.AI
Аннотация
Мы предлагаем MVP-трансформер (Multi-view Pyramid Transformer) — масштабируемую трансформерную архитектуру для многовидовых данных, которая напрямую реконструирует крупные 3D-сцены по десяткам или сотням изображений за один прямой проход. Основываясь на концепции «широкий охват для целостности, детальный взгляд для точности», MVP построен на двух ключевых принципах: 1) локально-глобальная междвидовая иерархия, постепенно расширяющая перспективу модели от локальных видов к группам и, наконец, ко всей сцене; 2) детально-укрупненная внутривидовая иерархия, начинающаяся с подробных пространственных представлений и последовательно агрегирующая их в компактные, информационно-плотные токены. Эта двойная иерархия обеспечивает как вычислительную эффективность, так и репрезентативную насыщенность, позволяя быстро реконструировать крупные сложные сцены. Мы проверили работу MVP на различных наборах данных и показали, что в сочетании с 3D Gaussian Splatting в качестве базового 3D-представления он достигает передового качества обобщающей реконструкции, сохраняя высокую эффективность и масштабируемость для широкого спектра конфигураций видов.
English
We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.