SpeechX: Neuraal Codec Taalmodel als een Veelzijdige Spraaktransformer
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
August 14, 2023
Auteurs: Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
cs.AI
Samenvatting
Recente vooruitgang in generatieve spraakmodellen gebaseerd op audio-tekst prompts heeft opmerkelijke innovaties mogelijk gemaakt, zoals hoogwaardige zero-shot tekst-naar-spraak. Bestaande modellen kampen echter nog steeds met beperkingen in het omgaan met diverse audio-tekst spraakgeneratietaken, zoals het transformeren van ingevoerde spraak en het verwerken van audio die onder ongunstige akoestische omstandigheden is opgenomen. Dit artikel introduceert SpeechX, een veelzijdig spraakgeneratiemodel dat in staat is tot zero-shot TTS en diverse spraaktransformatietaken, waarbij zowel schone als ruisige signalen worden verwerkt. SpeechX combineert neurale codec-taalmodellering met multi-task learning door gebruik te maken van taakafhankelijke prompting, wat een uniforme en uitbreidbare modellering mogelijk maakt en een consistente manier biedt om tekstuele invoer te benutten bij spraakverbetering en transformatietaken. Experimentele resultaten tonen de effectiviteit van SpeechX in verschillende taken, waaronder zero-shot TTS, ruisonderdrukking, extractie van doelsprekers, spraakverwijdering en spraakbewerking met of zonder achtergrondruis, waarbij het vergelijkbare of superieure prestaties bereikt ten opzichte van gespecialiseerde modellen voor verschillende taken. Zie https://aka.ms/speechx voor demosamples.
English
Recent advancements in generative speech models based on audio-text prompts
have enabled remarkable innovations like high-quality zero-shot text-to-speech.
However, existing models still face limitations in handling diverse audio-text
speech generation tasks involving transforming input speech and processing
audio captured in adverse acoustic conditions. This paper introduces SpeechX, a
versatile speech generation model capable of zero-shot TTS and various speech
transformation tasks, dealing with both clean and noisy signals. SpeechX
combines neural codec language modeling with multi-task learning using
task-dependent prompting, enabling unified and extensible modeling and
providing a consistent way for leveraging textual input in speech enhancement
and transformation tasks. Experimental results show SpeechX's efficacy in
various tasks, including zero-shot TTS, noise suppression, target speaker
extraction, speech removal, and speech editing with or without background
noise, achieving comparable or superior performance to specialized models
across tasks. See https://aka.ms/speechx for demo samples.