ChatPaper.aiChatPaper

Synth-SONAR: デュアル拡散モデルとGPTプロンプティングを介した多様性とリアリズムを向上させたソナー画像合成

Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

October 11, 2024
著者: Purushothaman Natarajan, Kamal Basha, Athira Nambiar
cs.AI

要旨

ソナー画像合成は、水中探査、海洋生物学、防衛などの応用の進展に不可欠です。従来の手法はしばしばソナーセンサーを使用した広範囲で費用のかかるデータ収集に依存しており、データの質と多様性が危ぶまれています。これらの制約を克服するため、本研究では新しいソナー画像合成フレームワークであるSynth-SONARを提案しています。このフレームワークは、拡散モデルとGPTプロンプティングを活用しています。Synth-SONARの主な革新点は次の3つです。まず、生成AIベースのスタイルインジェクション技術を統合し、公開されている実際の/シミュレートされたデータと組み合わせることで、ソナー研究用の最大のソナーデータコーパスの1つを生成します。第二に、デュアルテキスト条件付けソナー拡散モデル階層が、品質と多様性が向上した粗粒度および細かい粒度のソナー画像を合成します。第三に、高レベル(粗い)および低レベル(詳細)のテキストベースのソナー生成手法が、ビジュアル言語モデル(VLM)とGPTプロンプティングで利用可能な高度な意味情報を活用します。推論中、この手法はテキストプロンプトから多様でリアルなソナー画像を生成し、テキストの記述とソナー画像生成との間のギャップを埋めます。これは、私たちの知る限りでは、GPTプロンプティングがソナー画像に初めて適用されたものです。Synth-SONARは、高品質の合成ソナーデータセットを生成する点で最先端の結果を達成し、その多様性とリアリティを著しく向上させています。
English
Sonar image synthesis is crucial for advancing applications in underwater exploration, marine biology, and defence. Traditional methods often rely on extensive and costly data collection using sonar sensors, jeopardizing data quality and diversity. To overcome these limitations, this study proposes a new sonar image synthesis framework, Synth-SONAR leveraging diffusion models and GPT prompting. The key novelties of Synth-SONAR are threefold: First, by integrating Generative AI-based style injection techniques along with publicly available real/simulated data, thereby producing one of the largest sonar data corpus for sonar research. Second, a dual text-conditioning sonar diffusion model hierarchy synthesizes coarse and fine-grained sonar images with enhanced quality and diversity. Third, high-level (coarse) and low-level (detailed) text-based sonar generation methods leverage advanced semantic information available in visual language models (VLMs) and GPT-prompting. During inference, the method generates diverse and realistic sonar images from textual prompts, bridging the gap between textual descriptions and sonar image generation. This marks the application of GPT-prompting in sonar imagery for the first time, to the best of our knowledge. Synth-SONAR achieves state-of-the-art results in producing high-quality synthetic sonar datasets, significantly enhancing their diversity and realism.

Summary

AI-Generated Summary

PDF12November 16, 2024