ChatPaper.aiChatPaper

Когда большая модель обработки изображений и текста встречается с крупномасштабными снимками дистанционного зондирования: Постепенная обрезка токенов с текстовым управлением от грубой к детальной

When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

March 10, 2025
Авторы: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI

Аннотация

Эффективное понимание визуально-языковых данных для крупномасштабных изображений дистанционного зондирования (RSI) является важной, но сложной задачей. Современные крупные визуально-языковые модели (LVLM) обычно используют ограниченные предопределенные сетки для обработки изображений, что приводит к потере информации при работе с гигапиксельными RSI. С другой стороны, использование неограниченных сеток значительно увеличивает вычислительные затраты. Для сохранения деталей изображения при снижении вычислительной сложности мы предлагаем метод текстово-ориентированного сокращения токенов с интеграцией динамической пирамиды изображений (DIP). Наш метод включает: (i) модуль фокусировки на регионах (RFM), который использует текстово-ориентированную локализацию для выявления ключевых визуальных токенов, и (ii) стратегию выбора фрагментов изображения и сокращения визуальных токенов от грубого к точному на основе DIP, которая направляется выходами RFM и избегает прямой обработки всего крупного изображения. Кроме того, существующие бенчмарки для оценки способности LVLM воспринимать крупные RSI страдают от ограниченного разнообразия вопросов и ограниченных размеров изображений. Мы создаем новый бенчмарк под названием LRS-VQA, который содержит 7 333 пары вопросов и ответов в 8 категориях, с длиной изображения до 27 328 пикселей. Наш метод превосходит существующие стратегии обработки высокого разрешения на четырех наборах данных с использованием тех же данных. Более того, по сравнению с существующими методами сокращения токенов, наш подход демонстрирует более высокую эффективность в условиях высокого разрешения. Набор данных и код доступны по адресу: https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs' perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.

Summary

AI-Generated Summary

PDF73March 13, 2025