Удачная охота за токенами: Путеводитель автостопщика по выбору токенов для трансформеров визуальной геометрии

Аннотация

Визуальные геометрические трансформеры стали мощными архитектурами для многовидовой трехмерной реконструкции, обеспечивая совместное прогнозирование нескольких трехмерных атрибутов в прямом потоке. Однако их вычислительная стоимость растет квадратично с длиной входной последовательности из-за слоев глобального внимания внутри этих моделей. Это ограничивает как их масштабируемость, так и эффективность. В данной работе мы решаем эту задачу с помощью простой, но общей стратегии: ограничение количества токенов ключ/значение, с которыми взаимодействует каждый запрос во время глобального внимания. Для достижения эффективного отбора токенов мы предлагаем двухэтапную структуру. Сначала на этапе межкадрового отбора выполняется операция на уровне кадров для идентификации кадров, которые следует сохранить. Затем на этапе внутрикадрового отбора дополнительно отбрасываются более избыточные токены внутри выбранных кадров. Наш анализ подчеркивает преимущество стратегии на основе разнообразия для межкадрового отбора, что обеспечивает широкий охват сцены. Для внутрикадрового отбора мы показываем, что необходимо разрежение с учетом слоя, причем процесс отбора направляется энтропией паттерна глобального внимания. Наш подход обеспечивает превосходный компромисс между скоростью и точностью по сравнению с существующими решениями. Обширные эксперименты показывают, что он ускоряет визуальные геометрические трансформеры более чем на 85% для сцен с 500 изображениями, сохраняя или даже улучшая базовую производительность, что указывает на то, как наша стратегия отбора токенов может играть решающую роль в будущих применениях визуальных геометрических трансформеров. Наш веб-сайт проекта доступен по адресу https://zsh2000.github.io/good-token-hunting.github.io.

English

Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quadratically with the input sequence length due to the global attention layers inside these models. This limits both their scalability and efficiency. In this work, we address this challenge with a simple yet general strategy: restricting the number of key/value tokens that each query interacts with during global attention. To achieve effective token selection, we introduce a two-stage framework. First, an inter-frame selection step operates at the frame level to identify frames that should be preserved. Second, an intra-frame selection step further discards more redundant tokens within the selected frames. Our analysis highlights the advantage of a diversity-based strategy for inter-frame selection, which ensures broad coverage of the scene. For intra-frame selection, we show that layer-aware sparsification is necessary, with the selection process guided by the entropy of the global attention pattern. Our approach offers a superior speed-accuracy trade-off compared to existing solutions. Extensive experiments show that it accelerates visual geometry transformers by over 85% for scenes with 500 images while maintaining, or even improving, baseline performance, which hints that how our token selection strategy can play a crucial role in future applications of visual geometry transformers. Our project website is available at https://zsh2000.github.io/good-token-hunting.github.io.