SpeechX : Modèle de langage neural Codec en tant que transformateur polyvalent pour la parole
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
Auteurs: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
Résumé
Les récentes avancées dans les modèles génératifs de parole basés sur des prompts audio-texte ont permis des innovations remarquables, telles que la synthèse vocale de haute qualité en zero-shot. Cependant, les modèles existants rencontrent encore des limites dans la gestion de diverses tâches de génération de parole audio-texte impliquant la transformation de la parole d'entrée et le traitement d'audio capturé dans des conditions acoustiques difficiles. Cet article présente SpeechX, un modèle polyvalent de génération de parole capable de réaliser la synthèse vocale en zero-shot ainsi que diverses tâches de transformation de la parole, traitant à la fois des signaux propres et bruités. SpeechX combine la modélisation de langage de codec neuronal avec l'apprentissage multi-tâches en utilisant des prompts dépendants de la tâche, permettant une modélisation unifiée et extensible, et offrant une méthode cohérente pour exploiter les entrées textuelles dans les tâches d'amélioration et de transformation de la parole. Les résultats expérimentaux montrent l'efficacité de SpeechX dans diverses tâches, incluant la synthèse vocale en zero-shot, la suppression de bruit, l'extraction de locuteur cible, la suppression de parole, et l'édition de parole avec ou sans bruit de fond, atteignant des performances comparables ou supérieures à celles des modèles spécialisés pour chaque tâche. Consultez https://aka.ms/speechx pour des exemples de démonstration.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.