ChatPaper.aiChatPaper

GeoPixel : Modèle multimodal large pour l'ancrage de pixels en télédétection

GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

January 23, 2025
Auteurs: Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
cs.AI

Résumé

Les récentes avancées dans les grands modèles multimodaux (LMM) ont reconnu le ciblage détaillé comme un facteur impératif de la compréhension visuelle et du dialogue. Cependant, les avantages d'une telle représentation dans les LMM sont limités au domaine des images naturelles, et ces modèles fonctionnent mal pour la télédétection (RS). La vue aérienne distincte, les variations d'échelle et la présence d'objets de petite taille dans les images de RS haute résolution posent un défi unique pour la compréhension au niveau régional. De plus, le développement de la capacité de conversation ciblée des LMM dans le domaine de la RS est entravé par le manque de données granulaires spécifiques au domaine de la RS. Pour répondre à ces limitations, nous proposons GeoPixel - le premier RS-LMM haute résolution de bout en bout qui prend en charge le ciblage au niveau des pixels. Cette capacité permet une perception visuelle détaillée en générant des masques entrelacés dans la conversation. GeoPixel prend en charge une résolution HD jusqu'à 4K dans n'importe quel rapport d'aspect, idéal pour l'analyse d'images de RS de haute précision. Pour soutenir la génération de conversation ciblée (GCG) dans les images de RS, nous avons créé un ensemble de données visuellement ciblées, GeoPixelD, à travers un pipeline semi-automatisé qui utilise des incitations de jeu de marques et des priorités spatiales adaptées aux données de RS pour contrôler méthodiquement le processus de génération de données. GeoPixel démontre des performances supérieures en termes de compréhension au niveau des pixels, dépassant les LMM existants dans les tâches de segmentation à cible unique et à cibles multiples. Nos études d'ablation méthodologiques valident l'efficacité de chaque composant dans l'architecture globale. Notre code et nos données seront publiés publiquement.
English
Recent advances in large multimodal models (LMMs) have recognized fine-grained grounding as an imperative factor of visual understanding and dialogue. However, the benefits of such representation in LMMs are limited to the natural image domain, and these models perform poorly for remote sensing (RS). The distinct overhead viewpoint, scale variation, and presence of small objects in high-resolution RS imagery present a unique challenge in region-level comprehension. Moreover, the development of the grounding conversation capability of LMMs within RS is hindered by the lack of granular, RS domain-specific grounded data. Addressing these limitations, we propose GeoPixel - the first end-to-end high resolution RS-LMM that supports pixel-level grounding. This capability allows fine-grained visual perception by generating interleaved masks in conversation. GeoPixel supports up to 4K HD resolution in any aspect ratio, ideal for high-precision RS image analysis. To support the grounded conversation generation (GCG) in RS imagery, we curate a visually grounded dataset GeoPixelD through a semi-automated pipeline that utilizes set-of-marks prompting and spatial priors tailored for RS data to methodically control the data generation process. GeoPixel demonstrates superior performance in pixel-level comprehension, surpassing existing LMMs in both single-target and multi-target segmentation tasks. Our methodological ablation studies validate the effectiveness of each component in the overall architecture. Our code and data will be publicly released.

Summary

AI-Generated Summary

PDF82January 27, 2025