좋은 토큰 사냥: 비주얼 지오메트리 트랜스포머를 위한 토큰 선택 히치하이커 가이드
Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers
May 22, 2026
저자: Shuhong Zheng, Michael Oechsle, Erik Sandström, Marie-Julie Rakotosaona, Federico Tombari, Igor Gilitschenski
cs.AI
초록
비주얼 지오메트리 트랜스포머는 다시점 3D 재구성을 위한 강력한 아키텍처로 자리 잡았으며, 피드포워드 방식으로 여러 3D 속성을 동시에 예측할 수 있게 해준다. 그러나 이러한 모델 내부의 전역 어텐션 레이어로 인해 계산 비용이 입력 시퀀스 길이에 따라 제곱으로 증가한다. 이는 확장성과 효율성을 모두 제한한다. 본 연구에서는 각 쿼리가 전역 어텐션 동안 상호작용하는 키/값 토큰의 수를 제한하는 간단하면서도 일반적인 전략으로 이 문제를 해결한다. 효과적인 토큰 선택을 위해 두 단계 프레임워크를 도입한다. 첫째, 프레임 간 선택 단계는 프레임 수준에서 작동하여 보존해야 할 프레임을 식별한다. 둘째, 프레임 내 선택 단계는 선택된 프레임 내에서 더 많은 중복 토큰을 추가로 제거한다. 본 분석은 프레임 간 선택을 위한 다양성 기반 전략의 이점을 강조하며, 이는 장면의 광범위한 커버리지를 보장한다. 프레임 내 선택의 경우, 전역 어텐션 패턴의 엔트로피에 의해 선택 과정이 안내되는 레이어 인식 희소화가 필요함을 보여준다. 본 접근법은 기존 솔루션 대비 우수한 속도-정확도 트레이드오프를 제공한다. 광범위한 실험을 통해 500개의 이미지가 포함된 장면에서 비주얼 지오메트리 트랜스포머를 85% 이상 가속화하면서도 기준 성능을 유지하거나 개선함을 입증하였으며, 이는 본 토큰 선택 전략이 향후 비주얼 지오메트리 트랜스포머 응용에서 중요한 역할을 할 수 있음을 시사한다. 프로젝트 웹사이트는 https://zsh2000.github.io/good-token-hunting.github.io 에서 확인할 수 있다.
English
Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.