Quand un grand modèle vision-langage rencontre de vastes images de télédétection : Élagage de tokens guidé par texte, du grossier au fin

papers.abstract

La compréhension efficace vision-langage des grandes images de télédétection (RSI) est significative mais complexe. Les modèles de vision-langage à grande échelle (LVLM) actuels utilisent généralement des grilles prédéfinies limitées pour traiter les images, entraînant une perte d'information lors de la manipulation de RSI gigapixels. À l'inverse, l'utilisation de grilles illimitées augmente considérablement les coûts de calcul. Pour préserver les détails de l'image tout en réduisant la complexité computationnelle, nous proposons une méthode d'élagage de tokens guidée par le texte avec intégration d'une Pyramide d'Images Dynamique (DIP). Notre méthode introduit : (i) un Module de Focalisation Régionale (RFM) qui exploite la capacité de localisation de régions sensible au texte pour identifier les tokens visuels critiques, et (ii) une stratégie de sélection de tuiles d'image et d'élagage de tokens visuels allant du grossier au fin, basée sur la DIP, guidée par les sorties du RFM et évitant de traiter directement l'intégralité de la grande image. De plus, les benchmarks existants pour évaluer la capacité de perception des LVLM sur les grandes RSI souffrent d'une diversité limitée des questions et de tailles d'images contraintes. Nous construisons un nouveau benchmark nommé LRS-VQA, qui contient 7 333 paires de questions-réponses réparties en 8 catégories, avec des images atteignant jusqu'à 27 328 pixels de longueur. Notre méthode surpasse les stratégies existantes de haute résolution sur quatre ensembles de données utilisant les mêmes données. Par ailleurs, comparée aux méthodes existantes de réduction de tokens, notre approche démontre une efficacité supérieure dans des contextes de haute résolution. Le jeu de données et le code sont disponibles sur https://github.com/VisionXLab/LRS-VQA.

English

Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs' perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.

Quand un grand modèle vision-langage rencontre de vastes images de télédétection : Élagage de tokens guidé par texte, du grossier au fin

When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

papers.abstract

Support