Cuando el Modelo de Visión y Lenguaje a Gran Escala Encuentra Imágenes de Teledetección de Gran Tamaño: Poda de Tokens Guiada por Texto de Manera Gruesa a Fina
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
March 10, 2025
Autores: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI
Resumen
La comprensión eficiente de imágenes de percepción remota de gran tamaño (RSIs) en el ámbito visión-lenguaje es significativa pero desafiante. Los modelos actuales de visión-lenguaje de gran escala (LVLMs) suelen emplear cuadrículas predefinidas limitadas para procesar imágenes, lo que resulta en pérdida de información al manejar RSIs de gigapíxeles. Por el contrario, el uso de cuadrículas ilimitadas aumenta significativamente los costos computacionales. Para preservar los detalles de la imagen mientras se reduce la complejidad computacional, proponemos un método de poda de tokens guiado por texto con integración de Pirámide de Imagen Dinámica (DIP). Nuestro método introduce: (i) un Módulo de Enfoque de Región (RFM) que aprovecha la capacidad de localización de regiones consciente del texto para identificar tokens visuales críticos, y (ii) una estrategia de selección de mosaicos de imagen de grueso a fino y poda de tokens visuales basada en DIP, guiada por las salidas del RFM y que evita procesar directamente la imagen completa de gran tamaño. Además, los benchmarks existentes para evaluar la capacidad de percepción de los LVLMs en RSIs grandes adolecen de diversidad limitada en las preguntas y tamaños de imagen restringidos. Construimos un nuevo benchmark llamado LRS-VQA, que contiene 7,333 pares de preguntas y respuestas en 8 categorías, con imágenes de hasta 27,328 píxeles de longitud. Nuestro método supera a las estrategias existentes de alta resolución en cuatro conjuntos de datos utilizando los mismos datos. Además, en comparación con los métodos existentes de reducción de tokens, nuestro enfoque demuestra mayor eficiencia en configuraciones de alta resolución. El conjunto de datos y el código están disponibles en https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs)
is meaningful but challenging. Current Large Vision-Language Models (LVLMs)
typically employ limited pre-defined grids to process images, leading to
information loss when handling gigapixel RSIs. Conversely, using unlimited
grids significantly increases computational costs. To preserve image details
while reducing computational complexity, we propose a text-guided token pruning
method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i)
a Region Focus Module (RFM) that leverages text-aware region localization
capability to identify critical vision tokens, and (ii) a coarse-to-fine image
tile selection and vision token pruning strategy based on DIP, which is guided
by RFM outputs and avoids directly processing the entire large imagery.
Additionally, existing benchmarks for evaluating LVLMs' perception ability on
large RSI suffer from limited question diversity and constrained image sizes.
We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs
across 8 categories, with image length up to 27,328 pixels. Our method
outperforms existing high-resolution strategies on four datasets using the same
data. Moreover, compared to existing token reduction methods, our approach
demonstrates higher efficiency under high-resolution settings. Dataset and code
are in https://github.com/VisionXLab/LRS-VQA.Summary
AI-Generated Summary