Boa Caça de Tokens: Um Guia do Mochileiro para Seleção de Tokens em Visual Geometry Transformers

Resumo

Os transformadores de geometria visual tornaram-se arquiteturas poderosas para reconstrução 3D multivista, permitindo a predição conjunta de múltiplos atributos 3D de forma feed-forward. No entanto, seu custo computacional cresce quadraticamente com o comprimento da sequência de entrada devido às camadas de atenção global presentes nesses modelos. Isso limita tanto sua escalabilidade quanto sua eficiência. Neste trabalho, abordamos esse desafio com uma estratégia simples, porém geral: restringir o número de tokens de chave/valor com os quais cada consulta interage durante a atenção global. Para alcançar uma seleção eficaz de tokens, introduzimos um arcabouço em dois estágios. Primeiro, uma etapa de seleção entre quadros opera no nível do quadro para identificar quais quadros devem ser preservados. Segundo, uma etapa de seleção intra-quadro descarta ainda mais tokens redundantes dentro dos quadros selecionados. Nossa análise destaca a vantagem de uma estratégia baseada em diversidade para a seleção entre quadros, que garante uma cobertura ampla da cena. Para a seleção intra-quadro, mostramos que a esparsificação ciente das camadas é necessária, com o processo de seleção guiado pela entropia do padrão de atenção global. Nossa abordagem oferece um equilíbrio superior entre velocidade e precisão em comparação com soluções existentes. Experimentos extensivos mostram que ela acelera os transformadores de geometria visual em mais de 85% para cenas com 500 imagens, mantendo ou até melhorando o desempenho da linha de base, o que sugere como nossa estratégia de seleção de tokens pode desempenhar um papel crucial em aplicações futuras dos transformadores de geometria visual. Nosso site do projeto está disponível em https://zsh2000.github.io/good-token-hunting.github.io.

English

Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.