ChatPaper.aiChatPaper

SeGPruner: Potatore di Token Visivi Semantico-Geometrico per il Question Answering 3D

SeGPruner: Semantic-Geometric Visual Token Pruner for 3D Question Answering

March 31, 2026
Autori: Wenli Li, Kai Zhao, Haoran Jiang, Enquan Yang, Yi Su, Dan Zeng
cs.AI

Abstract

I modelli visione-linguaggio (VLM) sono stati ampiamente adottati per il task di question answering 3D (3D QA). Nelle pipeline tipiche, i token visivi estratti da più punti di vista vengono concatenati con i token linguistici ed elaborati congiuntamente da un grande modello linguistico (LLM) per l'inferenza. Tuttavia, l'aggregazione di osservazioni multi-vista introduce inevitabilmente una severa ridondanza di token, portando a un insieme di token visivi eccessivamente grande che ostacola significativamente l'efficienza inferenziale sotto vincoli di budget di token. La potatura dei token visivi è emersa come una strategia prevalente per affrontare questo problema. Ciononostante, la maggior parte dei potatori esistenti è principalmente concepita per input 2D o si affida a indizi geometrici indiretti, il che limita la loro capacità di trattenere esplicitamente oggetti semanticamente critici e mantenere una copertura spaziale sufficiente per un ragionamento 3D robusto. In questo articolo, proponiamo SeGPruner, un framework di riduzione dei token guidato dalla semantica e dalla geometria per un efficiente 3D QA con immagini multi-vista. Nello specifico, SeGPruner preserva inizialmente i token semanticamente salienti attraverso un modulo di importanza basato sull'attenzione (Selettore di Token basato sulla Salienza), assicurando che le evidenze critiche relative agli oggetti siano mantenute. Successivamente, integra questi token con altri spazialmente diversificati tramite un selettore guidato dalla geometria (Diversificatore di Token basato sulla Geometria), che considera congiuntamente la rilevanza semantica e la distanza geometrica 3D. Questa cooperazione tra preservazione della salienza e diversificazione guidata dalla geometria bilancia le evidenze a livello di oggetto e la copertura globale della scena sotto una riduzione aggressiva dei token. Esperimenti estensivi su ScanQA e OpenEQA dimostrano che SeGPruner migliora sostanzialmente l'efficienza inferenziale, riducendo il budget dei token visivi del 91% e la latenza inferenziale dell'86%, pur mantenendo prestazioni competitive nei task di ragionamento 3D.
English
Vision-language models (VLMs) have been widely adopted for 3D question answering (3D QA). In typical pipelines, visual tokens extracted from multiple viewpoints are concatenated with language tokens and jointly processed by a large language model (LLM) for inference. However, aggregating multi-view observations inevitably introduces severe token redundancy, leading to an overly large visual token set that significantly hinders inference efficiency under constrained token budgets. Visual token pruning has emerged as a prevalent strategy to address this issue. Nevertheless, most existing pruners are primarily tailored to 2D inputs or rely on indirect geometric cues, which limits their ability to explicitly retain semantically critical objects and maintain sufficient spatial coverage for robust 3D reasoning. In this paper, we propose SeGPruner, a semantic-aware and geometry-guided token reduction framework for efficient 3D QA with multi-view images. Specifically, SeGPruner first preserves semantically salient tokens through an attention-based importance module (Saliency-aware Token Selector), ensuring that object-critical evidence is retained. It then complements these tokens with spatially diverse ones via a geometry-guided selector (Geometry-aware Token Diversifier), which jointly considers semantic relevance and 3D geometric distance. This cooperation between saliency preservation and geometry-guided diversification balances object-level evidence and global scene coverage under aggressive token reduction. Extensive experiments on ScanQA and OpenEQA demonstrate that SeGPruner substantially improves inference efficiency, reducing the visual token budget by 91% and inference latency by 86%, while maintaining competitive performance in 3D reasoning tasks.
PDF21April 2, 2026