Synth-SONAR: Síntese de Imagens Sonar com Diversidade e Realismo Aprimorados através de Modelos de Difusão Dupla e Estímulo do GPT
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting
October 11, 2024
Autores: Purushothaman Natarajan, Kamal Basha, Athira Nambiar
cs.AI
Resumo
A síntese de imagens de sonar é crucial para avançar nas aplicações em exploração subaquática, biologia marinha e defesa. Métodos tradicionais frequentemente dependem de coleta extensiva e custosa de dados usando sensores de sonar, comprometendo a qualidade e diversidade dos dados. Para superar essas limitações, este estudo propõe um novo framework de síntese de imagens de sonar, Synth-SONAR, aproveitando modelos de difusão e prompts GPT. As principais inovações do Synth-SONAR são três: Primeiro, integrando técnicas de injeção de estilo baseadas em IA generativa juntamente com dados reais/simulados publicamente disponíveis, produzindo assim um dos maiores corpus de dados de sonar para pesquisa em sonar. Segundo, uma hierarquia de modelo de difusão de sonar de condicionamento de texto duplo sintetiza imagens de sonar grosseiras e detalhadas com qualidade e diversidade aprimoradas. Terceiro, métodos de geração de sonar baseados em texto de alto nível (grosseiro) e baixo nível (detalhado) aproveitam informações semânticas avançadas disponíveis em modelos de linguagem visual (VLMs) e prompts GPT. Durante a inferência, o método gera imagens de sonar diversas e realistas a partir de prompts textuais, preenchendo a lacuna entre descrições textuais e geração de imagens de sonar. Isso marca a aplicação de prompts GPT em imagens de sonar pela primeira vez, até onde sabemos. O Synth-SONAR alcança resultados de ponta na produção de conjuntos de dados de sonar sintéticos de alta qualidade, melhorando significativamente sua diversidade e realismo.
English
Sonar image synthesis is crucial for advancing applications in underwater
exploration, marine biology, and defence. Traditional methods often rely on
extensive and costly data collection using sonar sensors, jeopardizing data
quality and diversity. To overcome these limitations, this study proposes a new
sonar image synthesis framework, Synth-SONAR leveraging diffusion models and
GPT prompting. The key novelties of Synth-SONAR are threefold: First, by
integrating Generative AI-based style injection techniques along with publicly
available real/simulated data, thereby producing one of the largest sonar data
corpus for sonar research. Second, a dual text-conditioning sonar diffusion
model hierarchy synthesizes coarse and fine-grained sonar images with enhanced
quality and diversity. Third, high-level (coarse) and low-level (detailed)
text-based sonar generation methods leverage advanced semantic information
available in visual language models (VLMs) and GPT-prompting. During inference,
the method generates diverse and realistic sonar images from textual prompts,
bridging the gap between textual descriptions and sonar image generation. This
marks the application of GPT-prompting in sonar imagery for the first time, to
the best of our knowledge. Synth-SONAR achieves state-of-the-art results in
producing high-quality synthetic sonar datasets, significantly enhancing their
diversity and realism.Summary
AI-Generated Summary