ChatPaper.aiChatPaper

SpeechX: Neuraler Codec-Sprachmodell als vielseitiger Sprach-Transformer

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

August 14, 2023
Autoren: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI

Zusammenfassung

Jüngste Fortschritte bei generativen Sprachmodellen auf Basis von Audio-Text-Prompts haben bemerkenswerte Innovationen wie hochwertiges Zero-Shot Text-to-Speech ermöglicht. Allerdings stoßen bestehende Modelle nach wie vor an Grenzen bei der Bewältigung vielfältiger Audio-Text-Sprachgenerierungsaufgaben, die die Transformation von Eingabesprache und die Verarbeitung von unter schwierigen akustischen Bedingungen aufgenommenen Audiosignalen umfassen. Dieses Paper stellt SpeechX vor, ein vielseitiges Sprachgenerierungsmodell, das sowohl Zero-Shot TTS als auch verschiedene Sprachtransformationsaufgaben bewältigen kann und dabei sowohl saubere als auch verrauschte Signale verarbeitet. SpeechX kombiniert neuronale Codec-Sprachmodellierung mit Multi-Task-Learning unter Verwendung von aufgabenabhängigen Prompts, wodurch eine einheitliche und erweiterbare Modellierung ermöglicht wird und eine konsistente Methode zur Nutzung von Texteingaben bei Sprachverbesserungs- und Transformationsaufgaben bereitgestellt wird. Experimentelle Ergebnisse zeigen die Wirksamkeit von SpeechX in verschiedenen Aufgaben, darunter Zero-Shot TTS, Rauschunterdrückung, Zielsprecherextraktion, Sprachbeseitigung und Sprachbearbeitung mit oder ohne Hintergrundgeräusche, wobei es vergleichbare oder überlegene Leistungen gegenüber spezialisierten Modellen über alle Aufgaben hinweg erzielt. Demo-Beispiele finden Sie unter https://aka.ms/speechx.
English
Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.
PDF271December 15, 2024