SARChat-Bench-2M : un banc d'essai vision-langage multi-tâches pour l'interprétation d'images SAR
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation
February 12, 2025
Auteurs: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI
Résumé
Dans le domaine de l'interprétation d'images de télédétection par radar à ouverture synthétique (SAR), bien que les modèles de langage Vision (VLM) aient réalisé des progrès remarquables en traitement du langage naturel et compréhension des images, leurs applications restent limitées dans les domaines professionnels en raison d'un manque d'expertise de domaine. Cet article propose de manière innovante le premier ensemble de données de dialogue multimodal à grande échelle pour les images SAR, nommé SARChat-2M, qui contient environ 2 millions de paires image-texte de haute qualité, englobant divers scénarios avec des annotations de cibles détaillées. Cet ensemble de données prend en charge plusieurs tâches clés telles que la compréhension visuelle et la détection d'objets, tout en présentant des aspects innovants uniques : cette étude développe un ensemble de données visuel-langage et un banc d'essai pour le domaine SAR, permettant d'évaluer les capacités des VLM dans l'interprétation d'images SAR, offrant ainsi un cadre paradigmatique pour la construction d'ensembles de données multimodaux dans divers domaines verticaux de télédétection. À travers des expériences sur 16 VLMs populaires, l'efficacité de l'ensemble de données a été pleinement vérifiée, et le premier banc d'essai de dialogue multi-tâches dans le domaine SAR a été établi avec succès. Le projet sera publié sur https://github.com/JimmyMa99/SARChat, dans le but de promouvoir le développement approfondi et l'application étendue des modèles de langage visuel SAR.
English
In the field of synthetic aperture radar (SAR) remote sensing image
interpretation, although Vision language models (VLMs) have made remarkable
progress in natural language processing and image understanding, their
applications remain limited in professional domains due to insufficient domain
expertise. This paper innovatively proposes the first large-scale multimodal
dialogue dataset for SAR images, named SARChat-2M, which contains approximately
2 million high-quality image-text pairs, encompasses diverse scenarios with
detailed target annotations. This dataset not only supports several key tasks
such as visual understanding and object detection tasks, but also has unique
innovative aspects: this study develop a visual-language dataset and benchmark
for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image
interpretation, which provides a paradigmatic framework for constructing
multimodal datasets across various remote sensing vertical domains. Through
experiments on 16 mainstream VLMs, the effectiveness of the dataset has been
fully verified, and the first multi-task dialogue benchmark in the SAR field
has been successfully established. The project will be released at
https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth
development and wide application of SAR visual language models.Summary
AI-Generated Summary