Quand un grand modèle vision-langage rencontre de vastes images de télédétection : Élagage de tokens guidé par texte, du grossier au fin
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
March 10, 2025
Auteurs: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI
Résumé
La compréhension efficace vision-langage des grandes images de télédétection (RSI) est significative mais complexe. Les modèles de vision-langage à grande échelle (LVLM) actuels utilisent généralement des grilles prédéfinies limitées pour traiter les images, entraînant une perte d'information lors de la manipulation de RSI gigapixels. À l'inverse, l'utilisation de grilles illimitées augmente considérablement les coûts de calcul. Pour préserver les détails de l'image tout en réduisant la complexité computationnelle, nous proposons une méthode d'élagage de tokens guidée par le texte avec intégration d'une Pyramide d'Images Dynamique (DIP). Notre méthode introduit : (i) un Module de Focalisation Régionale (RFM) qui exploite la capacité de localisation de régions sensible au texte pour identifier les tokens visuels critiques, et (ii) une stratégie de sélection de tuiles d'image et d'élagage de tokens visuels allant du grossier au fin, basée sur la DIP, guidée par les sorties du RFM et évitant de traiter directement l'intégralité de la grande image. De plus, les benchmarks existants pour évaluer la capacité de perception des LVLM sur les grandes RSI souffrent d'une diversité limitée des questions et de tailles d'images contraintes. Nous construisons un nouveau benchmark nommé LRS-VQA, qui contient 7 333 paires de questions-réponses réparties en 8 catégories, avec des images atteignant jusqu'à 27 328 pixels de longueur. Notre méthode surpasse les stratégies existantes de haute résolution sur quatre ensembles de données utilisant les mêmes données. Par ailleurs, comparée aux méthodes existantes de réduction de tokens, notre approche démontre une efficacité supérieure dans des contextes de haute résolution. Le jeu de données et le code sont disponibles sur https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs)
is meaningful but challenging. Current Large Vision-Language Models (LVLMs)
typically employ limited pre-defined grids to process images, leading to
information loss when handling gigapixel RSIs. Conversely, using unlimited
grids significantly increases computational costs. To preserve image details
while reducing computational complexity, we propose a text-guided token pruning
method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i)
a Region Focus Module (RFM) that leverages text-aware region localization
capability to identify critical vision tokens, and (ii) a coarse-to-fine image
tile selection and vision token pruning strategy based on DIP, which is guided
by RFM outputs and avoids directly processing the entire large imagery.
Additionally, existing benchmarks for evaluating LVLMs' perception ability on
large RSI suffer from limited question diversity and constrained image sizes.
We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs
across 8 categories, with image length up to 27,328 pixels. Our method
outperforms existing high-resolution strategies on four datasets using the same
data. Moreover, compared to existing token reduction methods, our approach
demonstrates higher efficiency under high-resolution settings. Dataset and code
are in https://github.com/VisionXLab/LRS-VQA.Summary
AI-Generated Summary