SeGPruner: Semantisch-geometrischer visueller Token-Prüner für 3D-Fragebeantwortung

Zusammenfassung

Visionsprachmodelle (VLMs) werden häufig für 3D-Frage-Antwort-Aufgaben (3D-QA) eingesetzt. In typischen Verarbeitungspipelines werden visuelle Tokens von mehreren Blickwinkeln extrahiert, mit Sprach-Tokens verkettet und gemeinsam von einem großen Sprachmodell (LLM) zur Inferenz verarbeitet. Die Aggregation von Mehrfachansichts-Beobachtungen führt jedoch unweigerlich zu erheblicher Token-Redundanz, was eine übermäßig große Menge visueller Tokens zur Folge hat, die die Inferenzeffizienz unter begrenzten Token-Budgets erheblich beeinträchtigt. Visuelle Token-Ausdünnung hat sich als verbreitete Strategie zur Lösung dieses Problems etabliert. Dennoch sind die meisten existierenden Ausdünnungsmethoden primär auf 2D-Eingaben zugeschnitten oder stützen sich auf indirekte geometrische Hinweise, was ihre Fähigkeit einschränkt, semantisch kritische Objekte explizit zu erhalten und eine ausreichende räumliche Abdeckung für robuste 3D-Schlussfolgerungen beizubehalten. In diesem Beitrag stellen wir SeGPruner vor, einen semantikbewussten und geometriegeführten Token-Reduktionsrahmen für effiziente 3D-QA mit Mehrfachansichtsbildern. Konkret bewahrt SeGPruner zunächst semantisch bedeutsame Tokens durch ein aufmerksamkeitsbasiertes Bedeutungmodul (Saliency-aware Token Selector), um sicherzustellen, dass objektkritische Evidenz erhalten bleibt. Anschließend ergänzt es diese Tokens um räumlich diverse Tokens mittels eines geometriegeführten Selektors (Geometry-aware Token Diversifier), der sowohl semantische Relevanz als auch 3D-geometrische Abstände gemeinsam berücksichtigt. Diese Kooperation zwischen Bedeutungsbewahrung und geometriegeführter Diversifizierung balanciert Objektebene-Evidenz und globale Szenenabdeckung unter aggressiver Token-Reduktion. Umfangreiche Experimente auf ScanQA und OpenEQA zeigen, dass SeGPruner die Inferenzeffizienz erheblich verbessert, das visuelle Token-Budget um 91 % und die Inferenzlatenz um 86 % reduziert, während gleichzeitig wettbewerbsfähige Leistung in 3D-Schlussfolgerungsaufgaben erhalten bleibt.

English

Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.

SeGPruner: Semantisch-geometrischer visueller Token-Prüner für 3D-Fragebeantwortung

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Zusammenfassung

Support