SARChat-Bench-2M: Мультизадачный бенчмарк для визуально-языковой интерпретации SAR-изображений
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation
February 12, 2025
Авторы: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI
Аннотация
В области интерпретации изображений синтетической апертурной радиолокации (SAR) с использованием дистанционного зондирования, несмотря на значительный прогресс языковых моделей Vision (VLM) в обработке естественного языка и понимании изображений, их применение остается ограниченным в профессиональных областях из-за недостаточной экспертизы в области. В данной статье впервые предлагается крупномасштабный мультимодальный диалоговый набор данных для изображений SAR под названием SARChat-2M, который содержит около 2 миллионов высококачественных пар изображение-текст, охватывает разнообразные сценарии с подробными аннотациями целей. Этот набор данных поддерживает несколько ключевых задач, таких как задачи визуального понимания и обнаружения объектов, а также имеет уникальные инновационные аспекты: в данном исследовании разрабатывается визуально-языковой набор данных и бенчмарк для области SAR, позволяющий оценить возможности VLM в интерпретации изображений SAR, что предоставляет парадигмальную основу для создания мультимодальных наборов данных в различных вертикальных областях дистанционного зондирования. Через эксперименты с 16 ведущими VLM полностью подтверждена эффективность набора данных, и успешно установлен первый многозадачный диалоговый бенчмарк в области SAR. Проект будет опубликован на https://github.com/JimmyMa99/SARChat с целью содействия глубокому развитию и широкому применению визуально-языковых моделей SAR.
English
In the field of synthetic aperture radar (SAR) remote sensing image
interpretation, although Vision language models (VLMs) have made remarkable
progress in natural language processing and image understanding, their
applications remain limited in professional domains due to insufficient domain
expertise. This paper innovatively proposes the first large-scale multimodal
dialogue dataset for SAR images, named SARChat-2M, which contains approximately
2 million high-quality image-text pairs, encompasses diverse scenarios with
detailed target annotations. This dataset not only supports several key tasks
such as visual understanding and object detection tasks, but also has unique
innovative aspects: this study develop a visual-language dataset and benchmark
for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image
interpretation, which provides a paradigmatic framework for constructing
multimodal datasets across various remote sensing vertical domains. Through
experiments on 16 mainstream VLMs, the effectiveness of the dataset has been
fully verified, and the first multi-task dialogue benchmark in the SAR field
has been successfully established. The project will be released at
https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth
development and wide application of SAR visual language models.Summary
AI-Generated Summary