SoundCTM: 텍스트-소리 생성을 위한 스코어 기반 모델과 일관성 모델의 통합
SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
May 28, 2024
저자: Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji
cs.AI
초록
사운드 콘텐츠는 비디오 게임, 음악, 영화와 같은 멀티미디어 작품에서 필수적인 요소입니다. 최근의 고품질 확산 기반 사운드 생성 모델은 창작자들에게 유용한 도구로 활용될 수 있습니다. 그러나 이러한 모델들은 고품질의 사운드를 생성함에도 불구하고, 종종 느린 추론 속도로 인해 문제가 발생합니다. 이러한 단점은 창작자들에게 부담을 주는데, 이들은 일반적으로 자신의 예술적 의도에 맞게 사운드를 시행착오를 통해 다듬어야 하기 때문입니다. 이 문제를 해결하기 위해, 우리는 Sound Consistency Trajectory Models (SoundCTM)을 소개합니다. 우리의 모델은 고품질의 1단계 사운드 생성과 다단계 생성을 통한 우수한 사운드 품질 사이에서 유연한 전환을 가능하게 합니다. 이를 통해 창작자들은 초기에 1단계 샘플로 사운드를 제어한 후, 다단계 생성을 통해 다듬을 수 있습니다. CTM은 기본적으로 유연한 1단계 및 다단계 생성을 달성하지만, 그 인상적인 성능은 추가로 사전 훈련된 특징 추출기와 적대적 손실에 크게 의존하며, 이는 훈련 비용이 많이 들고 다른 도메인에서는 항상 사용 가능하지 않습니다. 따라서 우리는 CTM의 훈련 프레임워크를 재구성하고, 교사 네트워크를 활용하여 증류 손실을 위한 새로운 특징 거리를 도입했습니다. 또한, 분류자 없는 가이드 궤적을 증류하는 동안, 조건부 및 무조건부 학생 모델을 동시에 훈련하고 추론 중에 이들 모델 간의 보간을 수행합니다. 우리는 또한 SoundCTM의 유연한 샘플링 능력을 활용하여 훈련 없이 제어 가능한 프레임워크를 제안합니다. SoundCTM은 추가적인 오프더셰프 네트워크를 사용하지 않고도 유망한 1단계 및 다단계 실시간 사운드 생성을 동시에 달성합니다. 더 나아가, 우리는 SoundCTM이 훈련 없이도 제어 가능한 사운드 생성을 수행할 수 있는 능력을 입증합니다.
English
Sound content is an indispensable element for multimedia works such as video
games, music, and films. Recent high-quality diffusion-based sound generation
models can serve as valuable tools for the creators. However, despite producing
high-quality sounds, these models often suffer from slow inference speeds. This
drawback burdens creators, who typically refine their sounds through trial and
error to align them with their artistic intentions. To address this issue, we
introduce Sound Consistency Trajectory Models (SoundCTM). Our model enables
flexible transitioning between high-quality 1-step sound generation and
superior sound quality through multi-step generation. This allows creators to
initially control sounds with 1-step samples before refining them through
multi-step generation. While CTM fundamentally achieves flexible 1-step and
multi-step generation, its impressive performance heavily depends on an
additional pretrained feature extractor and an adversarial loss, which are
expensive to train and not always available in other domains. Thus, we reframe
CTM's training framework and introduce a novel feature distance by utilizing
the teacher's network for a distillation loss. Additionally, while distilling
classifier-free guided trajectories, we train conditional and unconditional
student models simultaneously and interpolate between these models during
inference. We also propose training-free controllable frameworks for SoundCTM,
leveraging its flexible sampling capability. SoundCTM achieves both promising
1-step and multi-step real-time sound generation without using any extra
off-the-shelf networks. Furthermore, we demonstrate SoundCTM's capability of
controllable sound generation in a training-free manner.Summary
AI-Generated Summary