ChatPaper.aiChatPaper

SoundCTM: テキストから音声生成のためのスコアベースモデルと一貫性モデルの統合

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

May 28, 2024
著者: Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji
cs.AI

要旨

音響コンテンツは、ビデオゲーム、音楽、映画などのマルチメディア作品において不可欠な要素です。近年の高品質な拡散ベースの音響生成モデルは、クリエイターにとって貴重なツールとなり得ます。しかし、これらのモデルは高品質な音を生成する一方で、推論速度が遅いという課題を抱えています。この欠点は、クリエイターが試行錯誤を重ねて音を調整し、自身の芸術的意図に合わせる際に負担となります。この問題を解決するため、我々はSound Consistency Trajectory Models (SoundCTM)を提案します。本モデルは、高品質な1ステップ音響生成と、マルチステップ生成による優れた音質との間を柔軟に移行することを可能にします。これにより、クリエイターは最初に1ステップサンプルで音を制御し、その後マルチステップ生成で調整することができます。CTMは基本的に柔軟な1ステップおよびマルチステップ生成を実現しますが、その優れた性能は、追加の事前学習済み特徴抽出器と敵対的損失に大きく依存しており、これらは学習コストが高く、他の領域では常に利用可能とは限りません。そこで、我々はCTMの学習フレームワークを再構築し、教師ネットワークを活用した蒸留損失のための新たな特徴距離を導入します。さらに、分類器不要ガイド付き軌道を蒸留する際に、条件付きと無条件の学生モデルを同時に学習し、推論時にこれらのモデル間を補間します。また、SoundCTMの柔軟なサンプリング能力を活用した、学習不要の制御可能なフレームワークを提案します。SoundCTMは、追加の既存ネットワークを使用せずに、有望な1ステップおよびマルチステップのリアルタイム音響生成を実現します。さらに、SoundCTMが学習不要の方法で制御可能な音響生成を可能にする能力を示します。
English
Sound content is an indispensable element for multimedia works such as video games, music, and films. Recent high-quality diffusion-based sound generation models can serve as valuable tools for the creators. However, despite producing high-quality sounds, these models often suffer from slow inference speeds. This drawback burdens creators, who typically refine their sounds through trial and error to align them with their artistic intentions. To address this issue, we introduce Sound Consistency Trajectory Models (SoundCTM). Our model enables flexible transitioning between high-quality 1-step sound generation and superior sound quality through multi-step generation. This allows creators to initially control sounds with 1-step samples before refining them through multi-step generation. While CTM fundamentally achieves flexible 1-step and multi-step generation, its impressive performance heavily depends on an additional pretrained feature extractor and an adversarial loss, which are expensive to train and not always available in other domains. Thus, we reframe CTM's training framework and introduce a novel feature distance by utilizing the teacher's network for a distillation loss. Additionally, while distilling classifier-free guided trajectories, we train conditional and unconditional student models simultaneously and interpolate between these models during inference. We also propose training-free controllable frameworks for SoundCTM, leveraging its flexible sampling capability. SoundCTM achieves both promising 1-step and multi-step real-time sound generation without using any extra off-the-shelf networks. Furthermore, we demonstrate SoundCTM's capability of controllable sound generation in a training-free manner.

Summary

AI-Generated Summary

PDF90December 12, 2024