FlashVGGT: Эффективные и масштабируемые трансформеры визуальной геометрии со сжатым дескрипторным вниманием
FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention
December 1, 2025
Авторы: Zipeng Wang, Dan Xu
cs.AI
Аннотация
Трехмерная реконструкция по многовидовым изображениям является ключевой задачей компьютерного зрения. В последнее время прямые (feed-forward) методы стали эффективной и надежной альтернативой традиционным техникам оптимизации для отдельной сцены. Среди них передовые модели, такие как Visual Geometry Grounding Transformer (VGGT), используют полное самовнимание (self-attention) ко всем токенам изображений для захвата глобальных зависимостей. Однако этот подход страдает от плохой масштабируемости из-за квадратичной сложности самовнимания и большого количества токенов, генерируемых в длинных последовательностях изображений. В данной работе мы представляем FlashVGGT — эффективную альтернативу, которая решает это узкое место с помощью механизма внимания на основе дескрипторов. Вместо применения плотного глобального внимания ко всем токенам, FlashVGGT сжимает пространственную информацию из каждого кадра в компактный набор токенов-дескрипторов. Глобальное внимание затем вычисляется как перекрестное внимание (cross-attention) между полным набором токенов изображений и этим меньшим набором дескрипторов, что значительно снижает вычислительные затраты. Более того, компактность дескрипторов позволяет осуществлять онлайн-вывод для длинных последовательностей с помощью chunk-recursive механизма, который повторно использует кэшированные дескрипторы из предыдущих фрагментов. Экспериментальные результаты показывают, что FlashVGGT достигает точности реконструкции, сопоставимой с VGGT, при этом сокращая время вывода до 9.3% от времени VGGT для 1000 изображений и эффективно масштабируясь до последовательностей, превышающих 3000 изображений. Страница проекта доступна по адресу https://wzpscott.github.io/flashvggt_page/.
English
3D reconstruction from multi-view images is a core challenge in computer vision. Recently, feed-forward methods have emerged as efficient and robust alternatives to traditional per-scene optimization techniques. Among them, state-of-the-art models like the Visual Geometry Grounding Transformer (VGGT) leverage full self-attention over all image tokens to capture global relationships. However, this approach suffers from poor scalability due to the quadratic complexity of self-attention and the large number of tokens generated in long image sequences. In this work, we introduce FlashVGGT, an efficient alternative that addresses this bottleneck through a descriptor-based attention mechanism. Instead of applying dense global attention across all tokens, FlashVGGT compresses spatial information from each frame into a compact set of descriptor tokens. Global attention is then computed as cross-attention between the full set of image tokens and this smaller descriptor set, significantly reducing computational overhead. Moreover, the compactness of the descriptors enables online inference over long sequences via a chunk-recursive mechanism that reuses cached descriptors from previous chunks. Experimental results show that FlashVGGT achieves reconstruction accuracy competitive with VGGT while reducing inference time to just 9.3% of VGGT for 1,000 images, and scaling efficiently to sequences exceeding 3,000 images. Our project page is available at https://wzpscott.github.io/flashvggt_page/.