SpeechX: Modelo de Lenguaje con Codec Neuronal como Transformador de Voz Versátil
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
Autores: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
Resumen
Los recientes avances en modelos generativos de voz basados en indicaciones de audio-texto han permitido innovaciones notables, como la síntesis de voz de texto a voz (TTS) de alta calidad en modo zero-shot. Sin embargo, los modelos existentes aún enfrentan limitaciones al manejar diversas tareas de generación de voz a partir de audio-texto que implican transformar el habla de entrada y procesar audio capturado en condiciones acústicas adversas. Este artículo presenta SpeechX, un modelo versátil de generación de voz capaz de realizar TTS en modo zero-shot y diversas tareas de transformación de voz, manejando tanto señales limpias como ruidosas. SpeechX combina el modelado de lenguaje de códec neuronal con aprendizaje multitarea utilizando indicaciones dependientes de la tarea, lo que permite un modelado unificado y extensible, y proporciona una forma consistente de aprovechar la entrada textual en tareas de mejora y transformación de voz. Los resultados experimentales muestran la eficacia de SpeechX en diversas tareas, incluyendo TTS en modo zero-shot, supresión de ruido, extracción de habla de un hablante objetivo, eliminación de habla y edición de habla con o sin ruido de fondo, logrando un rendimiento comparable o superior al de modelos especializados en todas las tareas. Consulte https://aka.ms/speechx para ver muestras de demostración.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.