Quando un Grande Modello Visione-Linguaggio Incontra Grandi Immagini di Telerilevamento: Potatura di Token Guidata da Testo con Approccio da Grossolano a Fine

Abstract

La comprensione efficiente visione-linguaggio di grandi immagini telerilevate (RSI) è significativa ma impegnativa. Gli attuali Modelli di Visione-Linguaggio di Grande Scala (LVLM) tipicamente impiegano griglie predefinite limitate per elaborare le immagini, portando a una perdita di informazioni quando si gestiscono RSI di dimensioni gigapixel. Al contrario, l'uso di griglie illimitate aumenta significativamente i costi computazionali. Per preservare i dettagli dell'immagine riducendo la complessità computazionale, proponiamo un metodo di potatura dei token guidato dal testo con integrazione della Piramide Dinamica delle Immagini (DIP). Il nostro metodo introduce: (i) un Modulo di Focalizzazione Regionale (RFM) che sfrutta la capacità di localizzazione regionale consapevole del testo per identificare i token visivi critici, e (ii) una strategia di selezione delle tessere dell'immagine e potatura dei token visivi da grossolana a fine basata su DIP, guidata dagli output di RFM ed evita di elaborare direttamente l'intera immagine di grandi dimensioni. Inoltre, i benchmark esistenti per valutare la capacità percettiva dei LVLM su grandi RSI soffrono di una limitata diversità delle domande e dimensioni delle immagini vincolate. Abbiamo costruito un nuovo benchmark denominato LRS-VQA, che contiene 7.333 coppie di domande e risposte in 8 categorie, con lunghezza dell'immagine fino a 27.328 pixel. Il nostro metodo supera le strategie esistenti ad alta risoluzione su quattro dataset utilizzando gli stessi dati. Inoltre, rispetto ai metodi esistenti di riduzione dei token, il nostro approccio dimostra una maggiore efficienza in contesti ad alta risoluzione. Dataset e codice sono disponibili su https://github.com/VisionXLab/LRS-VQA.

English

Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs' perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.

Quando un Grande Modello Visione-Linguaggio Incontra Grandi Immagini di Telerilevamento: Potatura di Token Guidata da Testo con Approccio da Grossolano a Fine

When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

Abstract

Support