ChatPaper.aiChatPaper

FlashVGGT: Effiziente und skalierbare visuelle Geometrie-Transformer mit komprimierter Deskriptor-Aufmerksamkeit

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

December 1, 2025
papers.authors: Zipeng Wang, Dan Xu
cs.AI

papers.abstract

Die 3D-Rekonstruktion aus Multi-View-Bildern ist eine zentrale Herausforderung in der Computer Vision. In jüngerer Zeit haben sich Feed-Forward-Methoden als effiziente und robuste Alternativen zu traditionellen Per-Scene-Optimierungstechniken etabliert. Zu den state-of-the-art Modellen gehört dabei der Visual Geometry Grounding Transformer (VGGT), der vollständige Self-Attention über alle Bild-Tokens anwendet, um globale Beziehungen zu erfassen. Dieser Ansatz leidet jedoch unter schlechter Skalierbarkeit, bedingt durch die quadratische Komplexität der Self-Attention und die große Anzahl von Tokens, die in langen Bildsequenzen erzeugt werden. In dieser Arbeit stellen wir FlashVGGT vor, eine effiziente Alternative, die diesen Engpass durch einen deskriptorbasierten Aufmerksamkeitsmechanismus adressiert. Anstatt eine dichte globale Aufmerksamkeit über alle Tokens hinweg anzuwenden, komprimiert FlashVGGT die räumlichen Informationen jedes Einzelbildes in einen kompakten Satz von Deskriptor-Tokens. Die globale Aufmerksamkeit wird dann als Cross-Attention zwischen der vollständigen Menge der Bild-Tokens und dieser kleineren Deskriptorenmenge berechnet, was den Rechenaufwand erheblich reduziert. Darüber hinaus ermöglicht die Kompaktheit der Deskriptoren eine Online-Inferenz für lange Sequenzen durch einen Chunk-rekursiven Mechanismus, der zwischengespeicherte Deskriptoren aus vorherigen Abschnitten wiederverwendet. Experimentelle Ergebnisse zeigen, dass FlashVGGT eine mit VGGT vergleichbare Rekonstruktionsgenauigkeit erreicht, dabei aber die Inferenzzeit für 1.000 Bilder auf nur 9,3 % von VGGT reduziert und effizient auf Sequenzen mit über 3.000 Bildern skaliert. Unsere Projektseite ist unter https://wzpscott.github.io/flashvggt_page/ verfügbar.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
PDF11December 4, 2025