FlashVGGT: Transformadores de Geometria Visual Eficientes e Escaláveis com Atenção por Descritores Comprimidos
FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
December 1, 2025
Autores: Zipeng Wang, Dan Xu
cs.AI
Resumo
A reconstrução 3D a partir de imagens multi-visão é um desafio central na visão computacional. Recentemente, os métodos de *feed-forward* surgiram como alternativas eficientes e robustas às técnicas tradicionais de otimização por cena. Entre eles, modelos de última geração, como o *Visual Geometry Grounding Transformer* (VGGT), utilizam autoatenção completa sobre todos os *tokens* de imagem para capturar relações globais. No entanto, esta abordagem sofre de baixa escalabilidade devido à complexidade quadrática da autoatenção e ao grande número de *tokens* gerados em sequências longas de imagens. Neste trabalho, apresentamos o FlashVGGT, uma alternativa eficiente que resolve este estrangulamento através de um mecanismo de atenção baseado em descritores. Em vez de aplicar atenção global densa em todos os *tokens*, o FlashVGGT comprime a informação espacial de cada *frame* num conjunto compacto de *tokens* descritores. A atenção global é então calculada como atenção cruzada entre o conjunto completo de *tokens* de imagem e este conjunto menor de descritores, reduzindo significativamente a sobrecarga computacional. Além disso, a compacidade dos descritores permite inferência online em sequências longas através de um mecanismo *chunk-recursive* que reutiliza descritores em *cache* de blocos anteriores. Resultados experimentais mostram que o FlashVGGT alcança uma precisão de reconstrução competitiva com o VGGT, enquanto reduz o tempo de inferência para apenas 9,3% do VGGT para 1.000 imagens, e escala eficientemente para sequências superiores a 3.000 imagens. A nossa página do projeto está disponível em https://wzpscott.github.io/flashvggt_page/.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.