ChatPaper.aiChatPaper

SARChat-Bench-2M: Ein Multi-Task Vision-Language Benchmark für die Interpretation von SAR-Bildern

SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

February 12, 2025
Autoren: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI

Zusammenfassung

Im Bereich der Interpretation von Synthetic Aperture Radar (SAR) Fernerkundungsbildern haben Vision Language Models (VLMs) zwar bemerkenswerte Fortschritte in der natürlichen Sprachverarbeitung und im Bildverständnis erzielt, jedoch bleiben ihre Anwendungen in professionellen Bereichen aufgrund unzureichender Fachkenntnisse begrenzt. Dieser Artikel schlägt innovativ den ersten groß angelegten multimodalen Dialogdatensatz für SAR-Bilder vor, namens SARChat-2M, der ungefähr 2 Millionen hochwertige Bild-Text-Paare enthält, verschiedene Szenarien mit detaillierten Zielannotationen umfasst. Dieser Datensatz unterstützt nicht nur mehrere Schlüsselaufgaben wie visuelles Verständnis und Objekterkennungsaufgaben, sondern weist auch einzigartige innovative Aspekte auf: Diese Studie entwickelt einen visuell-sprachlichen Datensatz und Benchmark für das SAR-Gebiet, um die Fähigkeiten von VLMs in der Interpretation von SAR-Bildern zu ermöglichen und zu bewerten, was einen paradigmatischen Rahmen für die Konstruktion multimodaler Datensätze in verschiedenen vertikalen Bereichen der Fernerkundung bietet. Durch Experimente mit 16 gängigen VLMs wurde die Wirksamkeit des Datensatzes vollständig bestätigt und der erste Multi-Task-Dialog-Benchmark im SAR-Bereich erfolgreich etabliert. Das Projekt wird unter https://github.com/JimmyMa99/SARChat veröffentlicht, mit dem Ziel, die eingehende Entwicklung und breite Anwendung von SAR-Visuell-Sprachmodellen zu fördern.
English
In the field of synthetic aperture radar (SAR) remote sensing image interpretation, although Vision language models (VLMs) have made remarkable progress in natural language processing and image understanding, their applications remain limited in professional domains due to insufficient domain expertise. This paper innovatively proposes the first large-scale multimodal dialogue dataset for SAR images, named SARChat-2M, which contains approximately 2 million high-quality image-text pairs, encompasses diverse scenarios with detailed target annotations. This dataset not only supports several key tasks such as visual understanding and object detection tasks, but also has unique innovative aspects: this study develop a visual-language dataset and benchmark for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image interpretation, which provides a paradigmatic framework for constructing multimodal datasets across various remote sensing vertical domains. Through experiments on 16 mainstream VLMs, the effectiveness of the dataset has been fully verified, and the first multi-task dialogue benchmark in the SAR field has been successfully established. The project will be released at https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth development and wide application of SAR visual language models.

Summary

AI-Generated Summary

PDF124February 13, 2025