ChatPaper.aiChatPaper

FlashVGGT: 압축된 디스크립터 어텐션을 통한 효율적이고 확장 가능한 시각 지오메트리 트랜스포머

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

December 1, 2025
저자: Zipeng Wang, Dan Xu
cs.AI

초록

다중 시점 이미지로부터의 3D 재구성은 컴퓨터 비전의 핵심 과제입니다. 최근 순전파(feed-forward) 방식이 기존의 장면별 최적화 기법에 대한 효율적이고 강력한 대안으로 부상하고 있습니다. 그중에서도 Visual Geometry Grounding Transformer (VGGT)와 같은 최첨단 모델은 모든 이미지 토큰에 대한 완전한 자기 주의력(self-attention)을 활용하여 전역 관계를 포착합니다. 그러나 이 방식은 자기 주의력의 2차 복잡도와 긴 이미지 시퀀스에서 생성되는 방대한 토큰 수로 인해 확장성이 낮다는 단점이 있습니다. 본 연구에서는 디스크립터 기반 주의 메커니즘을 통해 이러한 병목 현상을 해결하는 효율적인 대안인 FlashVGGT를 소개합니다. FlashVGGT는 모든 토큰에 걸쳐 조밀한 전역 주의력을 적용하는 대신, 각 프레임의 공간 정보를 컴팩트한 디스크립터 토큰 집합으로 압축합니다. 그런 다음 전체 이미지 토큰 집합과 이보다 작은 디스크립터 집합 간의 교차 주의력(cross-attention)으로 전역 주의력을 계산하여 계산 오버헤드를 크게 줄입니다. 더욱이 디스크립터의 컴팩트함은 이전 청크에서 캐시된 디스크립터를 재사용하는 청크-재귀(chunk-recursive) 메커니즘을 통해 긴 시퀀스에 대한 온라인 추론을 가능하게 합니다. 실험 결과, FlashVGGT는 1,000장의 이미지에 대해 VGGT 대비 추론 시간을 단 9.3%로 줄이면서도 VGGT에 필적하는 재구성 정확도를 달성하였으며, 3,000장을 초과하는 시퀀스까지 효율적으로 확장되었습니다. 본 프로젝트 페이지는 https://wzpscott.github.io/flashvggt_page/에서 확인할 수 있습니다.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.
PDF11December 4, 2025