Buena caza de tokens: Una guía del autoestopista para la selección de tokens en Transformers de Geometría Visual

Resumen

Los transformadores de geometría visual se han convertido en arquitecturas potentes para la reconstrucción 3D multivista, permitiendo la predicción conjunta de múltiples atributos 3D de manera directa (feed-forward). Sin embargo, su costo computacional crece cuadráticamente con la longitud de la secuencia de entrada debido a las capas de atención global dentro de estos modelos. Esto limita tanto su escalabilidad como su eficiencia. En este trabajo, abordamos este desafío con una estrategia simple pero general: restringir el número de tokens clave/valor con los que cada consulta interactúa durante la atención global. Para lograr una selección efectiva de tokens, introducimos un marco de dos etapas. Primero, un paso de selección entre fotogramas opera a nivel de fotograma para identificar los fotogramas que deben conservarse. Segundo, un paso de selección dentro del fotograma descarta además los tokens más redundantes dentro de los fotogramas seleccionados. Nuestro análisis destaca la ventaja de una estrategia basada en diversidad para la selección entre fotogramas, que garantiza una amplia cobertura de la escena. Para la selección dentro del fotograma, mostramos que es necesaria una dispersión consciente de la capa, donde el proceso de selección se guía por la entropía del patrón de atención global. Nuestro enfoque ofrece una relación velocidad-precisión superior en comparación con las soluciones existentes. Experimentos exhaustivos muestran que acelera los transformadores de geometría visual en más del 85% para escenas con 500 imágenes, manteniendo o incluso mejorando el rendimiento de referencia, lo que sugiere que nuestra estrategia de selección de tokens puede desempeñar un papel crucial en futuras aplicaciones de los transformadores de geometría visual. Nuestro sitio web del proyecto está disponible en https://zsh2000.github.io/good-token-hunting.github.io.

English

Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.