SARChat-Bench-2M: Een Multi-Task Visie-Taal Benchmark voor SAR Beeldinterpretatie
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation
February 12, 2025
Auteurs: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI
Samenvatting
In het vakgebied van synthetische apertuurradar (SAR) remote sensing beeldinterpretatie hebben Vision Language Models (VLM's) opmerkelijke vooruitgang geboekt in natuurlijke taalverwerking en beeldbegrip, maar hun toepassingen blijven beperkt in professionele domeinen vanwege onvoldoende domeinkennis. Dit artikel stelt innovatief het eerste grootschalige multimodale dialoogdataset voor SAR-beelden voor, genaamd SARChat-2M, die ongeveer 2 miljoen hoogwaardige beeld-tekst paren bevat, diverse scenario's omvat met gedetailleerde doelannotaties. Deze dataset ondersteunt niet alleen verschillende belangrijke taken zoals visueel begrip en objectdetectietaken, maar heeft ook unieke innovatieve aspecten: dit onderzoek ontwikkelt een visueel-taal dataset en benchmark voor het SAR-domein, waardoor VLM's in staat worden gesteld en geëvalueerd worden in de interpretatie van SAR-beelden, wat een paradigma biedt voor het construeren van multimodale datasets over verschillende verticale domeinen van remote sensing. Door experimenten met 16 gangbare VLM's is de effectiviteit van de dataset volledig geverifieerd, en de eerste multi-task dialoogbenchmark in het SAR-veld is succesvol opgezet. Het project zal worden vrijgegeven op https://github.com/JimmyMa99/SARChat, met als doel de diepgaande ontwikkeling en brede toepassing van SAR visuele taalmodellen te bevorderen.
English
In the field of synthetic aperture radar (SAR) remote sensing image
interpretation, although Vision language models (VLMs) have made remarkable
progress in natural language processing and image understanding, their
applications remain limited in professional domains due to insufficient domain
expertise. This paper innovatively proposes the first large-scale multimodal
dialogue dataset for SAR images, named SARChat-2M, which contains approximately
2 million high-quality image-text pairs, encompasses diverse scenarios with
detailed target annotations. This dataset not only supports several key tasks
such as visual understanding and object detection tasks, but also has unique
innovative aspects: this study develop a visual-language dataset and benchmark
for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image
interpretation, which provides a paradigmatic framework for constructing
multimodal datasets across various remote sensing vertical domains. Through
experiments on 16 mainstream VLMs, the effectiveness of the dataset has been
fully verified, and the first multi-task dialogue benchmark in the SAR field
has been successfully established. The project will be released at
https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth
development and wide application of SAR visual language models.Summary
AI-Generated Summary