Quando Grandes Modelos de Visão e Linguagem Encontram Grandes Imagens de Sensoriamento Remoto: Poda de Tokens Guiada por Texto do Grosso ao Fino
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
March 10, 2025
Autores: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI
Resumo
A compreensão eficiente de imagens de sensoriamento remoto de grande escala (RSIs) por meio de visão e linguagem é significativa, mas desafiadora. Os atuais Modelos de Grande Escala de Visão e Linguagem (LVLMs) geralmente empregam grades predefinidas limitadas para processar imagens, resultando em perda de informação ao lidar com RSIs de gigapixels. Por outro lado, o uso de grades ilimitadas aumenta significativamente os custos computacionais. Para preservar os detalhes da imagem enquanto reduz a complexidade computacional, propomos um método de poda de tokens guiado por texto com integração de Pirâmide de Imagem Dinâmica (DIP). Nosso método introduz: (i) um Módulo de Foco em Região (RFM) que aproveita a capacidade de localização de regiões consciente do texto para identificar tokens visuais críticos, e (ii) uma estratégia de seleção de blocos de imagem de grosseiro para refinado e poda de tokens visuais baseada em DIP, que é guiada pelas saídas do RFM e evita o processamento direto de toda a imagem grande. Além disso, os benchmarks existentes para avaliar a capacidade de percepção de LVLMs em grandes RSIs sofrem com diversidade limitada de perguntas e tamanhos de imagem restritos. Construímos um novo benchmark chamado LRS-VQA, que contém 7.333 pares de perguntas e respostas em 8 categorias, com comprimento de imagem de até 27.328 pixels. Nosso método supera as estratégias de alta resolução existentes em quatro conjuntos de dados usando os mesmos dados. Além disso, em comparação com os métodos existentes de redução de tokens, nossa abordagem demonstra maior eficiência em configurações de alta resolução. O conjunto de dados e o código estão disponíveis em https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs)
is meaningful but challenging. Current Large Vision-Language Models (LVLMs)
typically employ limited pre-defined grids to process images, leading to
information loss when handling gigapixel RSIs. Conversely, using unlimited
grids significantly increases computational costs. To preserve image details
while reducing computational complexity, we propose a text-guided token pruning
method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i)
a Region Focus Module (RFM) that leverages text-aware region localization
capability to identify critical vision tokens, and (ii) a coarse-to-fine image
tile selection and vision token pruning strategy based on DIP, which is guided
by RFM outputs and avoids directly processing the entire large imagery.
Additionally, existing benchmarks for evaluating LVLMs' perception ability on
large RSI suffer from limited question diversity and constrained image sizes.
We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs
across 8 categories, with image length up to 27,328 pixels. Our method
outperforms existing high-resolution strategies on four datasets using the same
data. Moreover, compared to existing token reduction methods, our approach
demonstrates higher efficiency under high-resolution settings. Dataset and code
are in https://github.com/VisionXLab/LRS-VQA.Summary
AI-Generated Summary