ChatPaper.aiChatPaper

FlashVGGT: Transformadores de Geometría Visual Eficientes y Escalables con Atención de Descriptores Comprimidos

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

December 1, 2025
Autores: Zipeng Wang, Dan Xu
cs.AI

Resumen

La reconstrucción 3D a partir de imágenes multi-vista es un desafío central en la visión por computador. Recientemente, los métodos de avance (feed-forward) han surgido como alternativas eficientes y robustas a las técnicas tradicionales de optimización por escena. Entre ellos, modelos de vanguardia como el Visual Geometry Grounding Transformer (VGGT) aprovechan la autoatención completa sobre todos los tokens de imagen para capturar relaciones globales. Sin embargo, este enfoque adolece de una escalabilidad deficiente debido a la complejidad cuadrática de la autoatención y al gran número de tokens generados en secuencias largas de imágenes. En este trabajo, presentamos FlashVGGT, una alternativa eficiente que aborda este cuello de botella mediante un mecanismo de atención basado en descriptores. En lugar de aplicar una atención global densa en todos los tokens, FlashVGGT comprime la información espacial de cada fotograma en un conjunto compacto de tokens descriptores. La atención global se calcula entonces como atención cruzada entre el conjunto completo de tokens de imagen y este conjunto de descriptores más pequeño, reduciendo significativamente la sobrecarga computacional. Además, la compacidad de los descriptores permite una inferencia en línea sobre secuencias largas mediante un mecanismo recursivo por fragmentos (chunk-recursive) que reutiliza descriptores en caché de fragmentos anteriores. Los resultados experimentales muestran que FlashVGGT logra una precisión de reconstrucción competitiva con VGGT, mientras reduce el tiempo de inferencia a solo el 9.3% del de VGGT para 1.000 imágenes, y escala eficientemente a secuencias que superan las 3.000 imágenes. Nuestra página del proyecto está disponible en https://wzpscott.github.io/flashvggt_page/.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
PDF11December 4, 2025