SpeechX: Нейросетевой языковой модель кодеков как универсальный речевой трансформер
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
Авторы: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
Аннотация
Последние достижения в области генеративных моделей речи на основе аудио-текстовых подсказок позволили реализовать впечатляющие инновации, такие как высококачественный синтез речи с нулевым обучением (zero-shot text-to-speech). Однако существующие модели по-прежнему сталкиваются с ограничениями при выполнении разнообразных задач генерации речи на основе аудио и текста, включая преобразование входного аудиосигнала и обработку звука, записанного в неблагоприятных акустических условиях. В данной статье представлена модель SpeechX — универсальная система генерации речи, способная выполнять как синтез речи с нулевым обучением, так и различные задачи преобразования речи, работая как с чистыми, так и с зашумленными сигналами. SpeechX сочетает нейросетевое моделирование языковых кодеков с многозадачным обучением с использованием подсказок, зависящих от задачи, что позволяет реализовать унифицированное и расширяемое моделирование, а также обеспечивает согласованный способ использования текстового ввода в задачах улучшения и преобразования речи. Экспериментальные результаты демонстрируют эффективность SpeechX в различных задачах, включая синтез речи с нулевым обучением, подавление шума, выделение целевого говорящего, удаление речи и редактирование речи с фоном или без него, достигая сопоставимой или превосходящей производительности по сравнению со специализированными моделями. Примеры работы модели доступны по ссылке: https://aka.ms/speechx.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.