ChatPaper.aiChatPaper

대형 비전-언어 모델이 대형 원격탐사 이미지를 만날 때: 텍스트 기반 토큰 프루닝의 Coarse-to-Fine 접근법

When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

March 10, 2025
저자: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI

초록

대규모 원격탐사 이미지(RSI)에 대한 효율적인 시각-언어 이해는 의미 있지만 도전적인 과제입니다. 현재의 대형 시각-언어 모델(LVLMs)은 일반적으로 제한된 사전 정의된 그리드를 사용하여 이미지를 처리하므로, 기가픽셀 RSI를 다룰 때 정보 손실이 발생합니다. 반면, 무제한 그리드를 사용하면 계산 비용이 크게 증가합니다. 이미지 세부 정보를 보존하면서 계산 복잡성을 줄이기 위해, 우리는 동적 이미지 피라미드(DIP) 통합을 통한 텍스트 기반 토큰 프루닝 방법을 제안합니다. 우리의 방법은 다음과 같은 두 가지 요소를 도입합니다: (i) 텍스트 인식 지역 위치 지정 능력을 활용하여 중요한 시각 토큰을 식별하는 지역 포커스 모듈(RFM), 그리고 (ii) DIP 기반의 coarse-to-fine 이미지 타일 선택 및 시각 토큰 프루닝 전략으로, 이는 RFM 출력에 의해 안내되며 전체 대형 이미지를 직접 처리하지 않습니다. 또한, 대규모 RSI에 대한 LVLMs의 인식 능력을 평가하기 위한 기존 벤치마크는 질문 다양성의 부족과 제한된 이미지 크기로 인해 한계가 있습니다. 우리는 LRS-VQA라는 새로운 벤치마크를 구축했으며, 이는 8개 카테고리에 걸쳐 7,333개의 질문-답변 쌍을 포함하고 이미지 길이가 최대 27,328 픽셀에 이릅니다. 우리의 방법은 동일한 데이터를 사용하여 네 개의 데이터셋에서 기존의 고해상도 전략을 능가합니다. 또한, 기존의 토큰 축소 방법과 비교했을 때, 우리의 접근법은 고해상도 설정에서 더 높은 효율성을 보여줍니다. 데이터셋과 코드는 https://github.com/VisionXLab/LRS-VQA에서 확인할 수 있습니다.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs' perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.

Summary

AI-Generated Summary

PDF73March 13, 2025