ChatPaper.aiChatPaper

Wanneer een groot visueel-taalmodel samenkomt met grote remote sensing-beelden: Van grof naar fijn tekstgestuurde token pruning

When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

March 10, 2025
Auteurs: Junwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li
cs.AI

Samenvatting

Efficiënt visueel-taalkundig begrip van grote Remote Sensing Images (RSI's) is betekenisvol maar uitdagend. Huidige Large Vision-Language Models (LVLM's) gebruiken typisch beperkte vooraf gedefinieerde roosters om afbeeldingen te verwerken, wat leidt tot informatieverlies bij het omgaan met gigapixel RSI's. Omgekeerd verhoogt het gebruik van onbeperkte roosters de rekenkosten aanzienlijk. Om beelddetails te behouden terwijl de rekencomplexiteit wordt verminderd, stellen we een tekstgeleide token pruning-methode voor met integratie van Dynamic Image Pyramid (DIP). Onze methode introduceert: (i) een Region Focus Module (RFM) dat gebruikmaakt van tekstbewuste regiolokalisatie om kritieke visuele tokens te identificeren, en (ii) een grof-naar-fijn beeldtegelselectie en visuele token pruning-strategie gebaseerd op DIP, die wordt geleid door RFM-uitvoer en vermijdt om de volledige grote afbeelding direct te verwerken. Daarnaast lijden bestaande benchmarks voor het evalueren van het perceptievermogen van LVLM's op grote RSI's onder beperkte vraagdiversiteit en beperkte afbeeldingsgroottes. We construeren een nieuwe benchmark genaamd LRS-VQA, die 7.333 vraag-antwoordparen bevat over 8 categorieën, met een beeldlengte tot 27.328 pixels. Onze methode presteert beter dan bestaande hoogresolutiestrategieën op vier datasets met dezelfde data. Bovendien toont onze aanpak, vergeleken met bestaande tokenreductiemethoden, hogere efficiëntie onder hoogresolutie-instellingen. Dataset en code zijn beschikbaar op https://github.com/VisionXLab/LRS-VQA.
English
Efficient vision-language understanding of large Remote Sensing Images (RSIs) is meaningful but challenging. Current Large Vision-Language Models (LVLMs) typically employ limited pre-defined grids to process images, leading to information loss when handling gigapixel RSIs. Conversely, using unlimited grids significantly increases computational costs. To preserve image details while reducing computational complexity, we propose a text-guided token pruning method with Dynamic Image Pyramid (DIP) integration. Our method introduces: (i) a Region Focus Module (RFM) that leverages text-aware region localization capability to identify critical vision tokens, and (ii) a coarse-to-fine image tile selection and vision token pruning strategy based on DIP, which is guided by RFM outputs and avoids directly processing the entire large imagery. Additionally, existing benchmarks for evaluating LVLMs' perception ability on large RSI suffer from limited question diversity and constrained image sizes. We construct a new benchmark named LRS-VQA, which contains 7,333 QA pairs across 8 categories, with image length up to 27,328 pixels. Our method outperforms existing high-resolution strategies on four datasets using the same data. Moreover, compared to existing token reduction methods, our approach demonstrates higher efficiency under high-resolution settings. Dataset and code are in https://github.com/VisionXLab/LRS-VQA.

Summary

AI-Generated Summary

PDF73March 13, 2025