SeGPruner: Semantisch-Geometrische Visuele Token Pruner voor 3D Vraag Antwoorden

Samenvatting

Vision-language models (VLMs) worden op grote schaal toegepast voor 3D-vraag-antwoordtaken (3D QA). In typische pijplijnen worden visuele tokens, geëxtraheerd vanuit meerdere gezichtspunten, samengevoegd met taaltokens en gezamenlijk verwerkt door een groot taalmodel (LLM) voor inferentie. Het samenvoegen van waarnemingen vanuit meerdere perspectieven introduceert echter onvermijdelijk ernstige tokenredundantie, wat leidt tot een te grote set visuele tokens die de inferentie-efficiëntie aanzienlijk belemmert bij beperkte tokenbudgetten. Visuele tokensnoei is naar voren gekomen als een veelgebruikte strategie om dit probleem aan te pakken. Desalniettemin zijn de meeste bestaande snoeimethoden voornamelijk afgestemd op 2D-inputs of zijn afhankelijk van indirecte geometrische aanwijzingen, wat hun vermogen beperkt om expliciet semantisch cruciale objecten te behouden en voldoende ruimtelijke dekking te handhaven voor robuuste 3D-redenering. In dit artikel stellen we SeGPruner voor, een semantisch-bewust en geometrisch-gestuurd raamwerk voor tokenreductie voor efficiënte 3D QA met meerdere beeldweergaven. Concreet behoudt SeGPruner eerst semantisch prominente tokens via een op aandacht gebaseerde belangrijkheidsmodule (Saliency-aware Token Selector), waardoor object-kritisch bewijs behouden blijft. Vervolgens worden deze tokens aangevuld met ruimtelijk diverse tokens via een geometrisch-gestuurde selector (Geometry-aware Token Diversifier), die zowel semantische relevantie als 3D-geometrische afstand gezamenlijk in overweging neemt. Deze samenwerking tussen prominentiebehoud en geometrisch-gestuurde diversificatie balanceert objectniveau-bewijs en globale scenedekking onder agressieve tokenreductie. Uitgebreide experimenten op ScanQA en OpenEQA tonen aan dat SeGPruner de inferentie-efficiëntie aanzienlijk verbetert, waarbij het visuele tokenbudget met 91% en de inferentielatentie met 86% wordt gereduceerd, terwijl competitieve prestaties in 3D-redeneertaken worden gehandhaafd.

English

Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.

SeGPruner: Semantisch-Geometrische Visuele Token Pruner voor 3D Vraag Antwoorden

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

Samenvatting

Support