SeGPruner: Семантико-геометрический метод отбора визуальных токенов для трехмерного вопроса-ответа
SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering
March 31, 2026
Авторы: Wenli Li, Kai Zhao, Haoran Jiang, Enquan Yang, Yi Su, Dan Zeng
cs.AI
Аннотация
Модели "визуальный язык" (VLMs) широко применяются для решения задач 3D-вопросов и ответов (3D QA). В типичных конвейерах визуальные токены, извлеченные из нескольких точек обзора, объединяются с языковыми токенами и совместно обрабатываются большой языковой моделью (LLM) для вывода. Однако агрегация наблюдений с нескольких ракурсов неизбежно приводит к значительной избыточности токенов, создавая чрезмерно большой набор визуальных токенов, что существенно снижает эффективность вывода при ограниченном бюджете токенов. Прореживание визуальных токенов стало распространенной стратегией для решения этой проблемы. Тем не менее, большинство существующих методов прореживания в основном ориентированы на 2D-входные данные или полагаются на косвенные геометрические признаки, что ограничивает их способность явно сохранять семантически важные объекты и поддерживать достаточное пространственное покрытие для надежного 3D-рассуждения. В данной статье мы предлагаем SeGPruner — семантически осознанную и геометрически направленную структуру для сокращения токенов с целью эффективной 3D QA с использованием многовидовых изображений. В частности, SeGPruner сначала сохраняет семантически значимые токены с помощью модуля важности на основе внимания (Селектор токенов с учетом значимости), гарантируя сохранение ключевых признаков объектов. Затем он дополняет эти токены пространственно разнообразными с помощью геометрически направленного селектора (Диверсификатор токенов с учетом геометрии), который совместно учитывает семантическую релевантность и 3D-геометрическое расстояние. Это сотрудничество между сохранением значимости и геометрически направленной диверсификацией балансирует доказательства на уровне объектов и глобальное покрытие сцены при агрессивном сокращении токенов. Многочисленные эксперименты на ScanQA и OpenEQA демонстрируют, что SeGPruner существенно повышает эффективность вывода, сокращая бюджет визуальных токенов на 91% и задержку вывода на 86%, при этом сохраняя конкурентоспособную производительность в задачах 3D-рассуждений.
English
Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.