SeGPruner: Podadora de Tokens Visuales Semántico-Geométricos para Respuesta a Preguntas en 3D

Resumen

Los modelos de visión y lenguaje (VLMs) se han adoptado ampliamente para la respuesta a preguntas en 3D (3D QA). En las pipelines típicas, los tokens visuales extraídos desde múltiples puntos de vista se concatenan con los tokens de lenguaje y son procesados conjuntamente por un modelo de lenguaje grande (LLM) para realizar la inferencia. Sin embargo, la agregación de observaciones multi-vista introduce inevitablemente una severa redundancia de tokens, lo que da lugar a un conjunto de tokens visuales excesivamente grande que dificulta significativamente la eficiencia de la inferencia bajo presupuestos de tokens limitados. La poda de tokens visuales ha surgido como una estrategia prevalente para abordar este problema. No obstante, la mayoría de los podadores existentes están diseñados principalmente para entradas 2D o dependen de claves geométricas indirectas, lo que limita su capacidad para retener explícitamente objetos semánticamente críticos y mantener una cobertura espacial suficiente para un razonamiento 3D robusto. En este artículo, proponemos SeGPruner, un marco de reducción de tokens guiado por la semántica y la geometría para una respuesta a preguntas en 3D eficiente con imágenes multi-vista. Específicamente, SeGPruner primero preserva los tokens semánticamente salientes mediante un módulo de importancia basado en atención (Selector de Tokens Conscientes de la Saliencia), asegurando que se retenga la evidencia crítica de los objetos. Luego, complementa estos tokens con otros espacialmente diversos mediante un selector guiado por la geometría (Diversificador de Tokens Conscientes de la Geometría), que considera conjuntamente la relevancia semántica y la distancia geométrica 3D. Esta cooperación entre la preservación de la saliencia y la diversificación guiada por la geometría equilibra la evidencia a nivel de objeto y la cobertura global de la escena bajo una reducción agresiva de tokens. Experimentos exhaustivos en ScanQA y OpenEQA demuestran que SeGPruner mejora sustancialmente la eficiencia de la inferencia, reduciendo el presupuesto de tokens visuales en un 91% y la latencia de inferencia en un 86%, manteniendo al mismo tiempo un rendimiento competitivo en tareas de razonamiento 3D.

English

Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.

SeGPruner: Podadora de Tokens Visuales Semántico-Geométricos para Respuesta a Preguntas en 3D

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Resumen

Support