Synth-SONAR: 이중 확산 모델과 GPT 프롬프팅을 통한 향상된 다양성과 현실감을 갖춘 소나 이미지 합성
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting
October 11, 2024
저자: Purushothaman Natarajan, Kamal Basha, Athira Nambiar
cs.AI
초록
음파 이미지 합성은 수중 탐사, 해양 생물학 및 방어 분야의 응용 프로그램을 발전시키는 데 중요합니다. 기존 방법은 종종 음파 센서를 사용하여 방대하고 비용이 많이 드는 데이터 수집에 의존하며, 데이터 품질과 다양성을 위협합니다. 이 연구는 이러한 제한을 극복하기 위해 확산 모델과 GPT 프롬프팅을 활용한 새로운 음파 이미지 합성 프레임워크인 Synth-SONAR을 제안합니다. Synth-SONAR의 주요 혁신점은 세 가지입니다. 첫째, 생성적 AI 기반 스타일 주입 기술을 통합하여 공개적으로 이용 가능한 실제/모의 데이터와 함께 사용함으로써 음파 연구를 위한 가장 큰 음파 데이터 코퍼스 중 하나를 생성합니다. 둘째, 이중 텍스트 조건화 음파 확산 모델 계층은 향상된 품질과 다양성을 갖는 굵고 세밀한 음파 이미지를 합성합니다. 셋째, 고수준(굵은) 및 저수준(세부적) 텍스트 기반 음파 생성 방법은 시각 언어 모델(VLMs)과 GPT 프롬프팅에서 제공되는 고급 의미 정보를 활용합니다. 추론 중에 이 방법은 텍스트 프롬프트로부터 다양하고 현실적인 음파 이미지를 생성하여 텍스트 설명과 음파 이미지 생성 사이의 간극을 줄입니다. 이는 우리의 최고 지식으로는 음파 이미지에 GPT 프롬프팅을 적용한 것으로, Synth-SONAR은 고품질의 합성 음파 데이터셋을 생성하여 그들의 다양성과 현실성을 크게 향상시킵니다. Synth-SONAR은 고품질의 합성 음파 데이터셋을 생성하는 데 최신 기술 결과를 달성합니다.
English
Sonar image synthesis is crucial for advancing applications in underwater
exploration, marine biology, and defence. Traditional methods often rely on
extensive and costly data collection using sonar sensors, jeopardizing data
quality and diversity. To overcome these limitations, this study proposes a new
sonar image synthesis framework, Synth-SONAR leveraging diffusion models and
GPT prompting. The key novelties of Synth-SONAR are threefold: First, by
integrating Generative AI-based style injection techniques along with publicly
available real/simulated data, thereby producing one of the largest sonar data
corpus for sonar research. Second, a dual text-conditioning sonar diffusion
model hierarchy synthesizes coarse and fine-grained sonar images with enhanced
quality and diversity. Third, high-level (coarse) and low-level (detailed)
text-based sonar generation methods leverage advanced semantic information
available in visual language models (VLMs) and GPT-prompting. During inference,
the method generates diverse and realistic sonar images from textual prompts,
bridging the gap between textual descriptions and sonar image generation. This
marks the application of GPT-prompting in sonar imagery for the first time, to
the best of our knowledge. Synth-SONAR achieves state-of-the-art results in
producing high-quality synthetic sonar datasets, significantly enhancing their
diversity and realism.Summary
AI-Generated Summary