ChatPaper.aiChatPaper

FlashVGGT: Trasformatori di Geometria Visiva Efficienti e Scalabili con Attenzione a Descrittori Compressi

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

December 1, 2025
Autori: Zipeng Wang, Dan Xu
cs.AI

Abstract

La ricostruzione 3D da immagini multi-view è una sfida fondamentale nella visione artificiale. Recentemente, i metodi feed-forward sono emersi come alternative efficienti e robuste alle tradizionali tecniche di ottimizzazione per scena. Tra questi, modelli all'avanguardia come il Visual Geometry Grounding Transformer (VGGT) sfruttano l'auto-attenzione completa su tutti i token immagine per catturare relazioni globali. Tuttavia, questo approccio soffre di una scarsa scalabilità a causa della complessità quadratica dell'auto-attenzione e dell'elevato numero di token generati in sequenze di immagini lunghe. In questo lavoro, introduciamo FlashVGGT, un'alternativa efficiente che affronta questo collo di bottiglia attraverso un meccanismo di attenzione basato su descrittori. Invece di applicare un'attenzione globale densa su tutti i token, FlashVGGT comprime le informazioni spaziali di ogni fotogramma in un insieme compatto di token descrittori. L'attenzione globale viene quindi calcolata come cross-attention tra l'insieme completo dei token immagine e questo insieme di descrittori più piccolo, riducendo significativamente il sovraccarico computazionale. Inoltre, la compattezza dei descrittori consente l'inferenza online su sequenze lunghe tramite un meccanismo chunk-recursive che riutilizza i descrittori memorizzati nella cache dai chunk precedenti. I risultati sperimentali mostrano che FlashVGGT raggiunge un'accuratezza di ricostruzione competitiva con VGGT, riducendo il tempo di inferenza a solo il 9,3% di quello di VGGT per 1.000 immagini, e scalando efficientemente a sequenze che superano le 3.000 immagini. La nostra pagina del progetto è disponibile all'indirizzo https://wzpscott.github.io/flashvggt_page/.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
PDF11December 4, 2025