Quando un Grande Modello Visione-Linguaggio Incontra Grandi Immagini di Telerilevamento: Potatura di Token Guidata da Testo con Approccio da Grossolano a Fine
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
March 10, 2025
Autori: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI
Abstract
La comprensione efficiente visione-linguaggio di grandi immagini telerilevate (RSI) è significativa ma impegnativa. Gli attuali Modelli di Visione-Linguaggio di Grande Scala (LVLM) tipicamente impiegano griglie predefinite limitate per elaborare le immagini, portando a una perdita di informazioni quando si gestiscono RSI di dimensioni gigapixel. Al contrario, l'uso di griglie illimitate aumenta significativamente i costi computazionali. Per preservare i dettagli dell'immagine riducendo la complessità computazionale, proponiamo un metodo di potatura dei token guidato dal testo con integrazione della Piramide Dinamica delle Immagini (DIP). Il nostro metodo introduce: (i) un Modulo di Focalizzazione Regionale (RFM) che sfrutta la capacità di localizzazione regionale consapevole del testo per identificare i token visivi critici, e (ii) una strategia di selezione delle tessere dell'immagine e potatura dei token visivi da grossolana a fine basata su DIP, guidata dagli output di RFM ed evita di elaborare direttamente l'intera immagine di grandi dimensioni. Inoltre, i benchmark esistenti per valutare la capacità percettiva dei LVLM su grandi RSI soffrono di una limitata diversità delle domande e dimensioni delle immagini vincolate. Abbiamo costruito un nuovo benchmark denominato LRS-VQA, che contiene 7.333 coppie di domande e risposte in 8 categorie, con lunghezza dell'immagine fino a 27.328 pixel. Il nostro metodo supera le strategie esistenti ad alta risoluzione su quattro dataset utilizzando gli stessi dati. Inoltre, rispetto ai metodi esistenti di riduzione dei token, il nostro approccio dimostra una maggiore efficienza in contesti ad alta risoluzione. Dataset e codice sono disponibili su https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs)
is meaningful but challenging. Current Large Vision-Language Models (LVLMs)
typically employ limited pre-defined grids to process images, leading to
information loss when handling gigapixel RSIs. Conversely, using unlimited
grids significantly increases computational costs. To preserve image details
while reducing computational complexity, we propose a text-guided token pruning
method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i)
a Region Focus Module (RFM) that leverages text-aware region localization
capability to identify critical vision tokens, and (ii) a coarse-to-fine image
tile selection and vision token pruning strategy based on DIP, which is guided
by RFM outputs and avoids directly processing the entire large imagery.
Additionally, existing benchmarks for evaluating LVLMs' perception ability on
large RSI suffer from limited question diversity and constrained image sizes.
We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs
across 8 categories, with image length up to 27,328 pixels. Our method
outperforms existing high-resolution strategies on four datasets using the same
data. Moreover, compared to existing token reduction methods, our approach
demonstrates higher efficiency under high-resolution settings. Dataset and code
are in https://github.com/VisionXLab/LRS-VQA.