SpeechX: Neuraler Codec-Sprachmodell als vielseitiger Sprach-Transformer
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
Autoren: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
Zusammenfassung
Jüngste Fortschritte bei generativen Sprachmodellen auf Basis von Audio-Text-Prompts haben bemerkenswerte Innovationen wie hochwertiges Zero-Shot Text-to-Speech ermöglicht. Allerdings stoßen bestehende Modelle nach wie vor an Grenzen bei der Bewältigung vielfältiger Audio-Text-Sprachgenerierungsaufgaben, die die Transformation von Eingabesprache und die Verarbeitung von unter schwierigen akustischen Bedingungen aufgenommenen Audiosignalen umfassen. Dieses Paper stellt SpeechX vor, ein vielseitiges Sprachgenerierungsmodell, das sowohl Zero-Shot TTS als auch verschiedene Sprachtransformationsaufgaben bewältigen kann und dabei sowohl saubere als auch verrauschte Signale verarbeitet. SpeechX kombiniert neuronale Codec-Sprachmodellierung mit Multi-Task-Learning unter Verwendung von aufgabenabhängigen Prompts, wodurch eine einheitliche und erweiterbare Modellierung ermöglicht wird und eine konsistente Methode zur Nutzung von Texteingaben bei Sprachverbesserungs- und Transformationsaufgaben bereitgestellt wird. Experimentelle Ergebnisse zeigen die Wirksamkeit von SpeechX in verschiedenen Aufgaben, darunter Zero-Shot TTS, Rauschunterdrückung, Zielsprecherextraktion, Sprachbeseitigung und Sprachbearbeitung mit oder ohne Hintergrundgeräusche, wobei es vergleichbare oder überlegene Leistungen gegenüber spezialisierten Modellen über alle Aufgaben hinweg erzielt. Demo-Beispiele finden Sie unter https://aka.ms/speechx.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.