SpeechX: 다목적 음성 변환기로서의 신경 코덱 언어 모델
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
저자: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
초록
오디오-텍스트 프롬프트 기반 생성 음성 모델의 최근 발전은 고품질 제로샷 텍스트-투-스피치(TTS)와 같은 놀라운 혁신을 가능하게 했습니다. 그러나 기존 모델들은 입력 음성을 변환하거나 불리한 음향 조건에서 캡처된 오디오를 처리하는 다양한 오디오-텍스트 음성 생성 작업을 다루는 데 여전히 한계를 보입니다. 본 논문은 깨끗한 신호와 잡음이 포함된 신호 모두를 처리할 수 있는 제로샷 TTS 및 다양한 음성 변환 작업이 가능한 다목적 음성 생성 모델인 SpeechX를 소개합니다. SpeechX는 신경 코덱 언어 모델링과 작업 의존적 프롬프팅을 활용한 다중 작업 학습을 결합하여 통합적이고 확장 가능한 모델링을 가능하게 하며, 음성 향상 및 변환 작업에서 텍스트 입력을 활용하는 일관된 방법을 제공합니다. 실험 결과는 SpeechX가 제로샷 TTS, 잡음 제거, 목표 화자 추출, 음성 제거, 배경 잡음 유무에 따른 음성 편집 등 다양한 작업에서 특화된 모델들과 비교해 비슷하거나 우수한 성능을 달성함을 보여줍니다. 데모 샘플은 https://aka.ms/speechx에서 확인할 수 있습니다.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.