FlashVGGT:圧縮記述子注意機構による効率的かつスケーラブルな視覚幾何学変換器
FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
December 1, 2025
著者: Zipeng Wang, Dan Xu
cs.AI
要旨
多視点画像からの3D再構成は、コンピュータビジョンにおける中核的な課題である。近年、フィードフォワード手法が、従来のシーン毎の最適化手法に代わる効率的かつロバストな代替法として登場している。その中でも、Visual Geometry Grounding Transformer(VGGT)のような最先端モデルは、全ての画像トークンに対する完全な自己注意機構を活用し、大域的な関係性を捉える。しかしながら、この手法は、自己注意の二次の計算量と、長い画像シーケンスで生成される膨大なトークン数により、拡張性の悪さに悩まされている。本研究では、このボトルネックを記述子ベースの注意機構によって解決する効率的な代替手法、FlashVGGTを提案する。FlashVGGTは、全てのトークン間にわたる密な大域的な注意を適用する代わりに、各フレームからの空間情報をコンパクトな記述子トークンの集合に圧縮する。大域的な注意は、画像トークン全体とこのより小さな記述子集合との間のクロスアテンションとして計算され、計算オーバーヘッドを大幅に削減する。さらに、記述子のコンパクト性により、前のチャンクからキャッシュされた記述子を再利用するチャンク再帰メカニズムを通じて、長いシーケンスに対するオンライン推論を可能にする。実験結果では、FlashVGGTが、1,000枚の画像において推論時間をVGGTのわずか9.3%に削減しつつ、VGGTと同等の再構成精度を達成し、3,000枚を超えるシーケンスへ効率的にスケールすることを示す。プロジェクトページはhttps://wzpscott.github.io/flashvggt_page/で公開されている。
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.