SpeechX : Modèle de langage neural Codec en tant que transformateur polyvalent pour la parole

papers.abstract

Les récentes avancées dans les modèles génératifs de parole basés sur des prompts audio-texte ont permis des innovations remarquables, telles que la synthèse vocale de haute qualité en zero-shot. Cependant, les modèles existants rencontrent encore des limites dans la gestion de diverses tâches de génération de parole audio-texte impliquant la transformation de la parole d'entrée et le traitement d'audio capturé dans des conditions acoustiques difficiles. Cet article présente SpeechX, un modèle polyvalent de génération de parole capable de réaliser la synthèse vocale en zero-shot ainsi que diverses tâches de transformation de la parole, traitant à la fois des signaux propres et bruités. SpeechX combine la modélisation de langage de codec neuronal avec l'apprentissage multi-tâches en utilisant des prompts dépendants de la tâche, permettant une modélisation unifiée et extensible, et offrant une méthode cohérente pour exploiter les entrées textuelles dans les tâches d'amélioration et de transformation de la parole. Les résultats expérimentaux montrent l'efficacité de SpeechX dans diverses tâches, incluant la synthèse vocale en zero-shot, la suppression de bruit, l'extraction de locuteur cible, la suppression de parole, et l'édition de parole avec ou sans bruit de fond, atteignant des performances comparables ou supérieures à celles des modèles spécialisés pour chaque tâche. Consultez https://aka.ms/speechx pour des exemples de démonstration.

English

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.

SpeechX : Modèle de langage neural Codec en tant que transformateur polyvalent pour la parole

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

papers.abstract

Support