ChatPaper.aiChatPaper

SpeechX: Modelo de Linguagem Neural Codec como um Transformador de Fala Versátil

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

August 14, 2023
Autores: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI

Resumo

Os recentes avanços em modelos generativos de fala baseados em prompts de áudio-texto têm possibilitado inovações notáveis, como a síntese de fala de alta qualidade em zero-shot. No entanto, os modelos existentes ainda enfrentam limitações ao lidar com diversas tarefas de geração de fala a partir de áudio-texto, envolvendo a transformação de fala de entrada e o processamento de áudio capturado em condições acústicas adversas. Este artigo apresenta o SpeechX, um modelo versátil de geração de fala capaz de realizar TTS em zero-shot e diversas tarefas de transformação de fala, lidando tanto com sinais limpos quanto com ruidosos. O SpeechX combina modelagem de linguagem de codec neural com aprendizado multitarefa usando prompts dependentes da tarefa, permitindo uma modelagem unificada e extensível e fornecendo uma maneira consistente de aproveitar a entrada textual em tarefas de aprimoramento e transformação de fala. Os resultados experimentais mostram a eficácia do SpeechX em várias tarefas, incluindo TTS em zero-shot, supressão de ruído, extração de falante alvo, remoção de fala e edição de fala com ou sem ruído de fundo, alcançando desempenho comparável ou superior a modelos especializados em todas as tarefas. Veja https://aka.ms/speechx para amostras de demonstração.
English
Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.
PDF271December 15, 2024