SpeechX: Modelo de Linguagem Neural Codec como um Transformador de Fala Versátil
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
Autores: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
Resumo
Os recentes avanços em modelos generativos de fala baseados em prompts de áudio-texto têm possibilitado inovações notáveis, como a síntese de fala de alta qualidade em zero-shot. No entanto, os modelos existentes ainda enfrentam limitações ao lidar com diversas tarefas de geração de fala a partir de áudio-texto, envolvendo a transformação de fala de entrada e o processamento de áudio capturado em condições acústicas adversas. Este artigo apresenta o SpeechX, um modelo versátil de geração de fala capaz de realizar TTS em zero-shot e diversas tarefas de transformação de fala, lidando tanto com sinais limpos quanto com ruidosos. O SpeechX combina modelagem de linguagem de codec neural com aprendizado multitarefa usando prompts dependentes da tarefa, permitindo uma modelagem unificada e extensível e fornecendo uma maneira consistente de aproveitar a entrada textual em tarefas de aprimoramento e transformação de fala. Os resultados experimentais mostram a eficácia do SpeechX em várias tarefas, incluindo TTS em zero-shot, supressão de ruído, extração de falante alvo, remoção de fala e edição de fala com ou sem ruído de fundo, alcançando desempenho comparável ou superior a modelos especializados em todas as tarefas. Veja https://aka.ms/speechx para amostras de demonstração.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.