ChatPaper.aiChatPaper

SARChat-Bench-2M: SAR画像のビジョン言語マルチタスクベンチマーク

SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

February 12, 2025
著者: Zhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
cs.AI

要旨

合成開口レーダー(SAR)リモートセンシング画像解釈の分野では、ビジョン言語モデル(VLM)が自然言語処理と画像理解において著しい進歩を遂げていますが、専門領域においては不十分なドメイン知識によりその応用は限定されています。本論文では、SAR画像用の初の大規模なマルチモーダル対話データセット「SARChat-2M」を提案しています。このデータセットには約200万の高品質な画像テキストペアが含まれ、詳細なターゲット注釈を備えた多様なシナリオが網羅されています。このデータセットは視覚理解や物体検出などの主要なタスクをサポートするだけでなく、次のような独自の革新的側面を持っています:SAR領域のための視覚言語データセットとベンチマークを開発し、VLMのSAR画像解釈における能力を可能にし評価することで、様々なリモートセンシング垂直領域全体でマルチモーダルデータセットを構築するための範型的なフレームワークを提供します。16の主要なVLMを対象とした実験により、データセットの有効性が十分に検証され、SAR分野における初のマルチタスク対話ベンチマークが成功裏に確立されました。このプロジェクトは、SAR視覚言語モデルの深い開発と広範な適用を促進することを目的として、https://github.com/JimmyMa99/SARChat で公開されます。
English
In the field of synthetic aperture radar (SAR) remote sensing image interpretation, although Vision language models (VLMs) have made remarkable progress in natural language processing and image understanding, their applications remain limited in professional domains due to insufficient domain expertise. This paper innovatively proposes the first large-scale multimodal dialogue dataset for SAR images, named SARChat-2M, which contains approximately 2 million high-quality image-text pairs, encompasses diverse scenarios with detailed target annotations. This dataset not only supports several key tasks such as visual understanding and object detection tasks, but also has unique innovative aspects: this study develop a visual-language dataset and benchmark for the SAR domain, enabling and evaluating VLMs' capabilities in SAR image interpretation, which provides a paradigmatic framework for constructing multimodal datasets across various remote sensing vertical domains. Through experiments on 16 mainstream VLMs, the effectiveness of the dataset has been fully verified, and the first multi-task dialogue benchmark in the SAR field has been successfully established. The project will be released at https://github.com/JimmyMa99/SARChat, aiming to promote the in-depth development and wide application of SAR visual language models.

Summary

AI-Generated Summary

PDF124February 13, 2025