ChatPaper.aiChatPaper

FlashVGGT: Efficiënte en schaalbare visuele geometrie-transformers met gecomprimeerde descriptor-attentie

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

December 1, 2025
Auteurs: Zipeng Wang, Dan Xu
cs.AI

Samenvatting

3D-reconstructie op basis van meerdere beelden is een centrale uitdaging in de computer vision. Recent zijn feed-forward-methoden naar voren gekomen als efficiënte en robuuste alternatieven voor traditionele, per-scène optimalisatietechnieken. Onder hen benutten state-of-the-art modellen zoals de Visual Geometry Grounding Transformer (VGGT) volledige zelf-attentie over alle beeldtokens om globale relaties vast te leggen. Deze aanpak heeft echter een slechte schaalbaarheid vanwege de kwadratische complexiteit van zelf-attentie en het grote aantal tokens dat gegenereerd wordt in lange beeldsequenties. In dit werk introduceren we FlashVGGT, een efficiënt alternatief dat dit knelpunt aanpakt via een op descriptoren gebaseerd aandachtmechanisme. In plaats van dichte globale aandacht toe te passen op alle tokens, comprimeert FlashVGGT ruimtelijke informatie van elk frame in een compacte set descriptortokens. Globale aandacht wordt vervolgens berekend als kruis-attentie tussen de volledige set beeldtokens en deze kleinere descriptorset, wat de rekenkosten aanzienlijk verlaagt. Bovendien stelt de compactheid van de descriptors online-inferentie over lange sequenties mogelijk via een chunk-recursief mechanisme dat eerder gecachte descriptors hergebruikt. Experimentele resultaten tonen aan dat FlashVGGT een reconstructienauwkeurigheid bereikt die vergelijkbaar is met VGGT, terwijl de inferentietijd wordt teruggebracht tot slechts 9,3% van die van VGGT voor 1.000 beelden, en efficiënt schaalt naar sequenties van meer dan 3.000 beelden. Onze projectpagina is beschikbaar op https://wzpscott.github.io/flashvggt_page/.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
PDF11December 4, 2025