ChatPaper.aiChatPaper

SARChat-Bench-2M: Un banco de pruebas visión-lenguaje multi-tarea para la interpretación de imágenes SAR.

SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

February 12, 2025
Autores: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI

Resumen

En el campo de la interpretación de imágenes de teledetección por radar de apertura sintética (SAR), aunque los modelos de lenguaje visual (VLMs, por sus siglas en inglés) han logrado avances notables en el procesamiento del lenguaje natural y la comprensión de imágenes, sus aplicaciones siguen siendo limitadas en dominios profesionales debido a la falta de experiencia en el dominio. Este documento propone de manera innovadora el primer conjunto de datos de diálogo multimodal a gran escala para imágenes SAR, llamado SARChat-2M, que contiene aproximadamente 2 millones de pares de alta calidad de imagen y texto, abarcando diversos escenarios con anotaciones detalladas de objetivos. Este conjunto de datos no solo respalda varias tareas clave como la comprensión visual y la detección de objetos, sino que también presenta aspectos innovadores únicos: este estudio desarrolla un conjunto de datos visual-lenguaje y un punto de referencia para el dominio SAR, permitiendo y evaluando las capacidades de los VLMs en la interpretación de imágenes SAR, lo que proporciona un marco paradigmático para la construcción de conjuntos de datos multimodales en varios dominios verticales de teledetección. A través de experimentos con 16 VLMs principales, se ha verificado plenamente la efectividad del conjunto de datos, y se ha establecido con éxito el primer punto de referencia de diálogo multitarea en el campo SAR. El proyecto se lanzará en https://github.com/JimmyMa99/SARChat, con el objetivo de promover el desarrollo en profundidad y la amplia aplicación de modelos de lenguaje visual SAR.
English
In the field of synthetic aperture radar (SAR) remote sensing image interpretation, although Vision language models (VLMs) have made remarkable progress in natural language processing and image understanding, their applications remain limited in professional domains due to insufficient domain expertise. This paper innovatively proposes the first large-scale multimodal dialogue dataset for SAR images, named SARChat-2M, which contains approximately 2 million high-quality image-text pairs, encompasses diverse scenarios with detailed target annotations. This dataset not only supports several key tasks such as visual understanding and object detection tasks, but also has unique innovative aspects: this study develop a visual-language dataset and benchmark for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image interpretation, which provides a paradigmatic framework for constructing multimodal datasets across various remote sensing vertical domains. Through experiments on 16 mainstream VLMs, the effectiveness of the dataset has been fully verified, and the first multi-task dialogue benchmark in the SAR field has been successfully established. The project will be released at https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth development and wide application of SAR visual language models.

Summary

AI-Generated Summary

PDF124February 13, 2025