ChatPaper.aiChatPaper

SeGPruner : Élagueur de jetons visuels sémantico-géométrique pour la réponse à des questions en 3D

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

March 31, 2026
Auteurs: Wenli Li, Kai Zhao, Haoran Jiang, Enquan Yang, Yi Su, Dan Zeng
cs.AI

Résumé

Les modèles vision-langage (VLM) sont largement adoptés pour le question-réponse en 3D (QA 3D). Dans les pipelines typiques, les tokens visuels extraits de multiples points de vue sont concaténés avec les tokens linguistiques et traités conjointement par un grand modèle de langage (LLM) pour l'inférence. Cependant, l'agrégation des observations multi-vues introduit inévitablement une redondance sévère des tokens, conduisant à un ensemble de tokens visuels excessivement volumineux qui entrave significativement l'efficacité de l'inférence sous contrainte budgétaire de tokens. L'élagage de tokens visuels est apparu comme une stratégie prévalente pour résoudre ce problème. Néanmoins, la plupart des éliminateurs existants sont principalement conçus pour des entrées 2D ou reposent sur des indices géométriques indirects, ce qui limite leur capacité à retenir explicitement les objets sémantiquement critiques et à maintenir une couverture spatiale suffisante pour un raisonnement 3D robuste. Dans cet article, nous proposons SeGPruner, un framework de réduction de tokens guidé par la sémantique et la géométrie pour un QA 3D efficace avec des images multi-vues. Spécifiquement, SeGPruner préserve d'abord les tokens sémantiquement saillants via un module d'importance basé sur l'attention (Sélecteur de Tokens Sensible à la Saillance), garantissant que les preuves critiques des objets sont conservées. Il complète ensuite ces tokens par d'autres spatialement diversifiés via un sélecteur guidé par la géométrie (Diversificateur de Tokens Sensible à la Géométrie), qui considère conjointement la pertinence sémantique et la distance géométrique 3D. Cette coopération entre la préservation de la saillance et la diversification guidée par la géométrie équilibre les preuves au niveau objet et la couverture globale de la scène sous une réduction agressive des tokens. Des expériences poussées sur ScanQA et OpenEQA démontrent que SeGPruner améliore substantiellement l'efficacité de l'inférence, réduisant le budget de tokens visuels de 91% et la latence d'inférence de 86%, tout en maintenant des performances compétitives dans les tâches de raisonnement 3D.
English
Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.
PDF21April 2, 2026