SeGPruner: Podador de Tokens Visuais Semântico-Geométrico para Questionamento 3D
SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering
March 31, 2026
Autores: Wenli Li, Kai Zhao, Haoran Jiang, Enquan Yang, Yi Su, Dan Zeng
cs.AI
Resumo
Os modelos visão-linguagem (VLMs) têm sido amplamente adotados para tarefas de questionamento e resposta em 3D (3D QA). Em pipelines típicos, tokens visuais extraídos de múltiplos pontos de vista são concatenados com tokens linguísticos e processados conjuntamente por um modelo de linguagem grande (LLM) para inferência. No entanto, a agregação de observações multi-view introduz inevitavelmente uma severa redundância de tokens, resultando em um conjunto visual de tokens excessivamente grande que prejudica significativamente a eficiência inferencial sob orçamentos de token restritos. A poda de tokens visuais emergiu como uma estratégia prevalente para abordar esta questão. Não obstante, a maioria dos podadores existentes são primariamente adaptados para entradas 2D ou dependem de pistas geométricas indiretas, o que limita sua capacidade de reter explicitamente objetos semanticamente críticos e manter uma cobertura espacial suficiente para um raciocínio 3D robusto. Neste artigo, propomos o SeGPruner, uma estrutura de redução de tokens guiada por semântica e geometria para 3D QA eficiente com imagens multi-view. Especificamente, o SeGPruner primeiro preserva tokens semanticamente salientes através de um módulo de importância baseado em atenção (Seletor de Tokens com Consciência de Salência), garantindo que evidências críticas de objetos sejam retidas. Em seguida, complementa esses tokens com outros espacialmente diversos via um seletor guiado por geometria (Diversificador de Tokens com Consciência Geométrica), que considera conjuntamente a relevância semântica e a distância geométrica 3D. Esta cooperação entre preservação de salência e diversificação guiada por geometria equilibra evidências a nível de objeto e cobertura global da cena sob uma redução agressiva de tokens. Experimentos extensivos no ScanQA e OpenEQA demonstram que o SeGPruner melhora substancialmente a eficiência inferencial, reduzindo o orçamento de tokens visuais em 91% e a latência de inferência em 86%, enquanto mantém um desempenho competitivo em tarefas de raciocínio 3D.
English
Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.