Pirâmide de Transformadores com Múltiplas Visões: Olhe Mais Grosseiro para Ver Mais Amplo

Resumo

Propomos o MVP (Multi-view Pyramid Transformer), uma arquitetura escalável de transformador multivista que reconstrói diretamente grandes cenas 3D a partir de dezenas ou centenas de imagens em uma única passada. Baseando-se na ideia de "olhar mais amplo para ver o todo, olhar mais fino para ver os detalhes", o MVP é construído sobre dois princípios de projeto centrais: 1) uma hierarquia inter-visão local-para-global que amplia gradualmente a perspectiva do modelo de vistas locais para grupos e, finalmente, para a cena completa, e 2) uma hierarquia intra-visão fino-para-grosso que começa com representações espaciais detalhadas e as agrega progressivamente em *tokens* compactos e densos em informação. Essa hierarquia dupla alcança tanto eficiência computacional quanto riqueza representacional, permitindo a reconstrução rápida de cenas grandes e complexas. Validamos o MVP em diversos conjuntos de dados e demonstramos que, quando acoplado ao 3D Gaussian Splatting como representação 3D subjacente, ele alcança qualidade de reconstrução generalizável de última geração, mantendo alta eficiência e escalabilidade em uma ampla variedade de configurações de vista.

English

We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.