SpeechX: Neuraler Codec-Sprachmodell als vielseitiger Sprach-Transformer

papers.abstract

Jüngste Fortschritte bei generativen Sprachmodellen auf Basis von Audio-Text-Prompts haben bemerkenswerte Innovationen wie hochwertiges Zero-Shot Text-to-Speech ermöglicht. Allerdings stoßen bestehende Modelle nach wie vor an Grenzen bei der Bewältigung vielfältiger Audio-Text-Sprachgenerierungsaufgaben, die die Transformation von Eingabesprache und die Verarbeitung von unter schwierigen akustischen Bedingungen aufgenommenen Audiosignalen umfassen. Dieses Paper stellt SpeechX vor, ein vielseitiges Sprachgenerierungsmodell, das sowohl Zero-Shot TTS als auch verschiedene Sprachtransformationsaufgaben bewältigen kann und dabei sowohl saubere als auch verrauschte Signale verarbeitet. SpeechX kombiniert neuronale Codec-Sprachmodellierung mit Multi-Task-Learning unter Verwendung von aufgabenabhängigen Prompts, wodurch eine einheitliche und erweiterbare Modellierung ermöglicht wird und eine konsistente Methode zur Nutzung von Texteingaben bei Sprachverbesserungs- und Transformationsaufgaben bereitgestellt wird. Experimentelle Ergebnisse zeigen die Wirksamkeit von SpeechX in verschiedenen Aufgaben, darunter Zero-Shot TTS, Rauschunterdrückung, Zielsprecherextraktion, Sprachbeseitigung und Sprachbearbeitung mit oder ohne Hintergrundgeräusche, wobei es vergleichbare oder überlegene Leistungen gegenüber spezialisierten Modellen über alle Aufgaben hinweg erzielt. Demo-Beispiele finden Sie unter https://aka.ms/speechx.

English

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.

SpeechX: Neuraler Codec-Sprachmodell als vielseitiger Sprach-Transformer

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

papers.abstract

Support