Wanneer een groot visueel-taalmodel samenkomt met grote remote sensing-beelden: Van grof naar fijn tekstgestuurde token pruning
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning
March 10, 2025
Auteurs: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI
Samenvatting
Efficiënt visueel-taalkundig begrip van grote Remote Sensing Images (RSI's)
is betekenisvol maar uitdagend. Huidige Large Vision-Language Models (LVLM's)
gebruiken typisch beperkte vooraf gedefinieerde roosters om afbeeldingen te verwerken, wat leidt tot
informatieverlies bij het omgaan met gigapixel RSI's. Omgekeerd verhoogt het gebruik van onbeperkte
roosters de rekenkosten aanzienlijk. Om beelddetails te behouden
terwijl de rekencomplexiteit wordt verminderd, stellen we een tekstgeleide token pruning-methode
voor met integratie van Dynamic Image Pyramid (DIP). Onze methode introduceert: (i)
een Region Focus Module (RFM) dat gebruikmaakt van tekstbewuste regiolokalisatie
om kritieke visuele tokens te identificeren, en (ii) een grof-naar-fijn beeldtegelselectie
en visuele token pruning-strategie gebaseerd op DIP, die wordt geleid
door RFM-uitvoer en vermijdt om de volledige grote afbeelding direct te verwerken.
Daarnaast lijden bestaande benchmarks voor het evalueren van het perceptievermogen van LVLM's op
grote RSI's onder beperkte vraagdiversiteit en beperkte afbeeldingsgroottes.
We construeren een nieuwe benchmark genaamd LRS-VQA, die 7.333 vraag-antwoordparen bevat
over 8 categorieën, met een beeldlengte tot 27.328 pixels. Onze methode
presteert beter dan bestaande hoogresolutiestrategieën op vier datasets met dezelfde
data. Bovendien toont onze aanpak, vergeleken met bestaande tokenreductiemethoden,
hogere efficiëntie onder hoogresolutie-instellingen. Dataset en code
zijn beschikbaar op https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs)
is meaningful but challenging. Current Large Vision-Language Models (LVLMs)
typically employ limited pre-defined grids to process images, leading to
information loss when handling gigapixel RSIs. Conversely, using unlimited
grids significantly increases computational costs. To preserve image details
while reducing computational complexity, we propose a text-guided token pruning
method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i)
a Region Focus Module (RFM) that leverages text-aware region localization
capability to identify critical vision tokens, and (ii) a coarse-to-fine image
tile selection and vision token pruning strategy based on DIP, which is guided
by RFM outputs and avoids directly processing the entire large imagery.
Additionally, existing benchmarks for evaluating LVLMs' perception ability on
large RSI suffer from limited question diversity and constrained image sizes.
We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs
across 8 categories, with image length up to 27,328 pixels. Our method
outperforms existing high-resolution strategies on four datasets using the same
data. Moreover, compared to existing token reduction methods, our approach
demonstrates higher efficiency under high-resolution settings. Dataset and code
are in https://github.com/VisionXLab/LRS-VQA.Summary
AI-Generated Summary