SoundCTM: Объединение моделей на основе оценки и моделей согласованности для генерации текста в звук.
SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
May 28, 2024
Авторы: Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji
cs.AI
Аннотация
Звуковое содержание является неотъемлемым элементом для мультимедийных произведений, таких как видеоигры, музыка и фильмы. Недавние модели генерации звука на основе диффузии высокого качества могут служить ценным инструментом для создателей. Однако, несмотря на производство звука высокого качества, эти модели часто страдают от медленных скоростей вывода. Этот недостаток создает дополнительную нагрузку на создателей, которые обычно совершенствуют свои звуки методом проб и ошибок, чтобы соответствовать своим художественным намерениям. Для решения этой проблемы мы представляем модели траекторий согласованности звука (SoundCTM). Наша модель позволяет гибко переходить между генерацией звука высокого качества за один шаг и превосходным качеством звука через многошаговую генерацию. Это позволяет создателям изначально управлять звуками с помощью образцов за один шаг, прежде чем совершенствовать их через многошаговую генерацию. Хотя CTM в основе достигает гибкой генерации за один шаг и многошаговой генерации, его впечатляющая производительность в значительной степени зависит от дополнительного предварительно обученного извлекателя признаков и адверсариальной потери, которые дорого стоит обучать и не всегда доступны в других областях. Таким образом, мы пересматриваем обучающую структуру CTM и представляем новое расстояние признаков, используя потерю дистилляции сети учителя. Кроме того, во время дистилляции траекторий без классификатора мы одновременно обучаем условные и безусловные модели учеников и интерполируем между этими моделями во время вывода. Мы также предлагаем обучающиеся без фреймворков для управления SoundCTM, используя его гибкую возможность выборки. SoundCTM достигает обещающей генерации звука в реальном времени за один шаг и многошаговой генерации без использования дополнительных сетей "из коробки". Более того, мы демонстрируем возможность SoundCTM генерации управляемого звука в обучающемся режиме.
English
Sound content is an indispensable element for multimedia works such as video
games, music, and films. Recent high-quality diffusion-based sound generation
models can serve as valuable tools for the creators. However, despite producing
high-quality sounds, these models often suffer from slow inference speeds. This
drawback burdens creators, who typically refine their sounds through trial and
error to align them with their artistic intentions. To address this issue, we
introduce Sound Consistency Trajectory Models (SoundCTM). Our model enables
flexible transitioning between high-quality 1-step sound generation and
superior sound quality through multi-step generation. This allows creators to
initially control sounds with 1-step samples before refining them through
multi-step generation. While CTM fundamentally achieves flexible 1-step and
multi-step generation, its impressive performance heavily depends on an
additional pretrained feature extractor and an adversarial loss, which are
expensive to train and not always available in other domains. Thus, we reframe
CTM's training framework and introduce a novel feature distance by utilizing
the teacher's network for a distillation loss. Additionally, while distilling
classifier-free guided trajectories, we train conditional and unconditional
student models simultaneously and interpolate between these models during
inference. We also propose training-free controllable frameworks for SoundCTM,
leveraging its flexible sampling capability. SoundCTM achieves both promising
1-step and multi-step real-time sound generation without using any extra
off-the-shelf networks. Furthermore, we demonstrate SoundCTM's capability of
controllable sound generation in a training-free manner.Summary
AI-Generated Summary