Bonne chasse aux tokens : Le guide du routard pour la sélection de tokens dans les Transformers de géométrie visuelle

Résumé

Les transformateurs de géométrie visuelle sont devenus des architectures puissantes pour la reconstruction 3D multi-vue, permettant la prédiction conjointe de plusieurs attributs 3D de manière directe. Cependant, leur coût de calcul croît de façon quadratique avec la longueur de la séquence d'entrée en raison des couches d'attention globale présentes dans ces modèles. Cela limite à la fois leur passage à l'échelle et leur efficacité. Dans ce travail, nous relevons ce défi avec une stratégie simple mais générale : restreindre le nombre de jetons clé/valeur avec lesquels chaque requête interagit lors de l'attention globale. Pour parvenir à une sélection de jetons efficace, nous introduisons un cadre en deux étapes. D'abord, une étape de sélection inter-trame opère au niveau des images pour identifier celles qui doivent être conservées. Ensuite, une étape de sélection intra-trame élimine davantage de jetons redondants au sein des images sélectionnées. Notre analyse met en évidence l'avantage d'une stratégie basée sur la diversité pour la sélection inter-trame, garantissant une large couverture de la scène. Pour la sélection intra-trame, nous montrons qu'un élagage conscient de la couche est nécessaire, le processus de sélection étant guidé par l'entropie du modèle d'attention globale. Notre approche offre un compromis vitesse-précision supérieur à celui des solutions existantes. Des expériences approfondies montrent qu'elle accélère les transformateurs de géométrie visuelle de plus de 85 % pour des scènes comprenant 500 images, tout en maintenant, voire en améliorant, les performances de référence, ce qui suggère que notre stratégie de sélection de jetons peut jouer un rôle crucial dans les futures applications des transformateurs de géométrie visuelle. Notre site web du projet est accessible à l'adresse https://zsh2000.github.io/good-token-hunting.github.io.

English

Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.