SARChat-Bench-2M: un benchmark di visione-linguaggio multi-task per l'interpretazione di immagini SAR
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation
February 12, 2025
Autori: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI
Abstract
Nel campo dell'interpretazione delle immagini da telerilevamento radar ad apertura sintetica (SAR), sebbene i modelli di linguaggio Vision (VLM) abbiano compiuto progressi notevoli nell'elaborazione del linguaggio naturale e nella comprensione delle immagini, le loro applicazioni rimangono limitate nei settori professionali a causa di una conoscenza di dominio insufficiente. Questo articolo propone in modo innovativo il primo dataset di dialoghi multimodali su larga scala per immagini SAR, chiamato SARChat-2M, che contiene approssimativamente 2 milioni di coppie immagine-testo di alta qualità, che abbracciano scenari diversi con dettagliate annotazioni sugli obiettivi. Questo dataset supporta non solo diversi compiti chiave come la comprensione visiva e i compiti di rilevamento degli oggetti, ma presenta anche aspetti innovativi unici: questo studio sviluppa un dataset visivo-linguistico e un punto di riferimento per il dominio SAR, abilitando ed valutando le capacità dei VLM nell'interpretazione delle immagini SAR, fornendo un quadro paradigmatico per la costruzione di dataset multimodali attraverso vari domini verticali di telerilevamento. Attraverso esperimenti su 16 VLM principali, l'efficacia del dataset è stata pienamente verificata, e il primo punto di riferimento di dialogo multi-task nel campo SAR è stato stabilito con successo. Il progetto sarà rilasciato su https://github.com/JimmyMa99/SARChat, con l'obiettivo di promuovere lo sviluppo approfondito e l'ampia applicazione dei modelli visivo-linguistici SAR.
English
In the field of synthetic aperture radar (SAR) remote sensing image
interpretation, although Vision language models (VLMs) have made remarkable
progress in natural language processing and image understanding, their
applications remain limited in professional domains due to insufficient domain
expertise. This paper innovatively proposes the first large-scale multimodal
dialogue dataset for SAR images, named SARChat-2M, which contains approximately
2 million high-quality image-text pairs, encompasses diverse scenarios with
detailed target annotations. This dataset not only supports several key tasks
such as visual understanding and object detection tasks, but also has unique
innovative aspects: this study develop a visual-language dataset and benchmark
for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image
interpretation, which provides a paradigmatic framework for constructing
multimodal datasets across various remote sensing vertical domains. Through
experiments on 16 mainstream VLMs, the effectiveness of the dataset has been
fully verified, and the first multi-task dialogue benchmark in the SAR field
has been successfully established. The project will be released at
https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth
development and wide application of SAR visual language models.Summary
AI-Generated Summary