Gute Token-Jagd: Ein Anhalter-Leitfaden zur Token-Auswahl für Visuelle Geometrie-Transformer

Zusammenfassung

Visuelle Geometrie-Transformer haben sich zu leistungsstarken Architekturen für die Multi-View-3D-Rekonstruktion entwickelt, die eine gemeinsame Vorhersage mehrerer 3D-Attribute in einer Feed-Forward-Weise ermöglichen. Allerdings wachsen ihre Rechenkosten aufgrund der globalen Aufmerksamkeitsschichten innerhalb dieser Modelle quadratisch mit der Länge der Eingabesequenz. Dies schränkt sowohl ihre Skalierbarkeit als auch ihre Effizienz ein. In dieser Arbeit begegnen wir dieser Herausforderung mit einer einfachen, aber allgemeinen Strategie: der Beschränkung der Anzahl von Schlüssel-/Wert-Token, mit denen jeder Query während der globalen Aufmerksamkeit interagiert. Um eine effektive Tokenauswahl zu erreichen, führen wir ein zweistufiges Framework ein. Zunächst erfolgt ein frameübergreifender Auswahlschritt auf Frame-Ebene, um Frames zu identifizieren, die beibehalten werden sollten. Zweitens verwirft ein innerframe Selektion Schritt innerhalb der ausgewählten Frames weitere redundante Token. Unsere Analyse unterstreicht den Vorteil einer diversitätsbasierten Strategie für die frameübergreifende Auswahl, die eine breite Abdeckung der Szene gewährleistet. Für die innerframe Selektion zeigen wir, dass eine schichtbewusste Ausdünnung notwendig ist, wobei der Auswahlprozess durch die Entropie des globalen Aufmerksamkeitsmusters geleitet wird. Unser Ansatz bietet einen überlegenen Geschwindigkeits-Genauigkeits-Kompromiss im Vergleich zu bestehenden Lösungen. Umfangreiche Experimente zeigen, dass er visuelle Geometrie-Transformer für Szenen mit 500 Bildern um über 85% beschleunigt, während die Basisleistung beibehalten oder sogar verbessert wird, was darauf hindeutet, dass unsere Token-Auswahlstrategie in zukünftigen Anwendungen visueller Geometrie-Transformer eine entscheidende Rolle spielen kann. Unsere Projektwebsite ist verfügbar unter https://zsh2000.github.io/good-token-hunting.github.io.

English

Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.