ChatPaper.aiChatPaper

FlashVGGT : Transformateurs de géométrie visuelle efficaces et évolutifs avec attention par descripteurs compressés

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

December 1, 2025
papers.authors: Zipeng Wang, Dan Xu
cs.AI

papers.abstract

La reconstruction 3D à partir d'images multi-vues est un défi fondamental en vision par ordinateur. Récemment, les méthodes feed-forward sont apparues comme des alternatives efficaces et robustes aux techniques traditionnelles d'optimisation par scène. Parmi elles, les modèles de pointe comme le Visual Geometry Grounding Transformer (VGGT) exploitent l'auto-attention complète sur tous les tokens d'image pour capturer les relations globales. Cependant, cette approche souffre d'une mauvaise évolutivité due à la complexité quadratique de l'auto-attention et au grand nombre de tokens générés dans les longues séquences d'images. Dans ce travail, nous présentons FlashVGGT, une alternative efficace qui résout ce goulot d'étranglement grâce à un mécanisme d'attention basé sur des descripteurs. Au lieu d'appliquer une attention globale dense sur tous les tokens, FlashVGGT compresse l'information spatiale de chaque image en un ensemble compact de tokens descripteurs. L'attention globale est ensuite calculée comme une attention croisée entre l'ensemble complet des tokens d'image et cet ensemble de descripteurs réduit, diminuant significativement la surcharge computationnelle. De plus, la compacité des descripteurs permet une inférence en ligne sur de longues séquences via un mécanisme chunk-recursif qui réutilise les descripteurs mis en cache des segments précédents. Les résultats expérimentaux montrent que FlashVGGT atteint une précision de reconstruction comparable à VGGT tout en réduisant le temps d'inférence à seulement 9,3 % de celui de VGGT pour 1 000 images, et en s'adaptant efficacement à des séquences dépassant 3 000 images. Notre page projet est disponible à l'adresse https://wzpscott.github.io/flashvggt_page/.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
PDF11December 4, 2025