SpeechX: Modelo de Linguagem Neural Codec como um Transformador de Fala Versátil

Resumo

Os recentes avanços em modelos generativos de fala baseados em prompts de áudio-texto têm possibilitado inovações notáveis, como a síntese de fala de alta qualidade em zero-shot. No entanto, os modelos existentes ainda enfrentam limitações ao lidar com diversas tarefas de geração de fala a partir de áudio-texto, envolvendo a transformação de fala de entrada e o processamento de áudio capturado em condições acústicas adversas. Este artigo apresenta o SpeechX, um modelo versátil de geração de fala capaz de realizar TTS em zero-shot e diversas tarefas de transformação de fala, lidando tanto com sinais limpos quanto com ruidosos. O SpeechX combina modelagem de linguagem de codec neural com aprendizado multitarefa usando prompts dependentes da tarefa, permitindo uma modelagem unificada e extensível e fornecendo uma maneira consistente de aproveitar a entrada textual em tarefas de aprimoramento e transformação de fala. Os resultados experimentais mostram a eficácia do SpeechX em várias tarefas, incluindo TTS em zero-shot, supressão de ruído, extração de falante alvo, remoção de fala e edição de fala com ou sem ruído de fundo, alcançando desempenho comparável ou superior a modelos especializados em todas as tarefas. Veja https://aka.ms/speechx para amostras de demonstração.

English

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.

SpeechX: Modelo de Linguagem Neural Codec como um Transformador de Fala Versátil

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

Resumo

Support