SARChat-Bench-2M: Um Benchmark Multitarefa de Visão e Linguagem para Interpretação de Imagens SAR
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation
February 12, 2025
Autores: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI
Resumo
No campo da interpretação de imagens de sensoriamento remoto por radar de abertura sintética (SAR), embora os modelos de linguagem visual (VLMs) tenham alcançado progressos notáveis no processamento de linguagem natural e na compreensão de imagens, suas aplicações ainda são limitadas em domínios profissionais devido à insuficiência de expertise específica. Este artigo propõe de forma inovadora o primeiro conjunto de dados de diálogo multimodal em larga escala para imagens SAR, denominado SARChat-2M, que contém aproximadamente 2 milhões de pares de imagem-texto de alta qualidade, abrangendo diversos cenários com anotações detalhadas de alvos. Este conjunto de dados não apenas suporta várias tarefas-chave, como compreensão visual e detecção de objetos, mas também apresenta aspectos inovadores únicos: este estudo desenvolve um conjunto de dados e um benchmark de linguagem visual para o domínio SAR, capacitando e avaliando as capacidades dos VLMs na interpretação de imagens SAR, fornecendo um framework paradigmático para a construção de conjuntos de dados multimodais em diversos domínios verticais de sensoriamento remoto. Por meio de experimentos com 16 VLMs principais, a eficácia do conjunto de dados foi plenamente verificada, e o primeiro benchmark de diálogo multitarefa no campo SAR foi estabelecido com sucesso. O projeto será disponibilizado em https://github.com/JimmyMa99/SARChat, com o objetivo de promover o desenvolvimento aprofundado e a ampla aplicação de modelos de linguagem visual SAR.
English
In the field of synthetic aperture radar (SAR) remote sensing image
interpretation, although Vision language models (VLMs) have made remarkable
progress in natural language processing and image understanding, their
applications remain limited in professional domains due to insufficient domain
expertise. This paper innovatively proposes the first large-scale multimodal
dialogue dataset for SAR images, named SARChat-2M, which contains approximately
2 million high-quality image-text pairs, encompasses diverse scenarios with
detailed target annotations. This dataset not only supports several key tasks
such as visual understanding and object detection tasks, but also has unique
innovative aspects: this study develop a visual-language dataset and benchmark
for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image
interpretation, which provides a paradigmatic framework for constructing
multimodal datasets across various remote sensing vertical domains. Through
experiments on 16 mainstream VLMs, the effectiveness of the dataset has been
fully verified, and the first multi-task dialogue benchmark in the SAR field
has been successfully established. The project will be released at
https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth
development and wide application of SAR visual language models.Summary
AI-Generated Summary