SpeechX: Neuraal Codec Taalmodel als een Veelzijdige Spraaktransformer

Samenvatting

Recente vooruitgang in generatieve spraakmodellen gebaseerd op audio-tekst prompts heeft opmerkelijke innovaties mogelijk gemaakt, zoals hoogwaardige zero-shot tekst-naar-spraak. Bestaande modellen kampen echter nog steeds met beperkingen in het omgaan met diverse audio-tekst spraakgeneratietaken, zoals het transformeren van ingevoerde spraak en het verwerken van audio die onder ongunstige akoestische omstandigheden is opgenomen. Dit artikel introduceert SpeechX, een veelzijdig spraakgeneratiemodel dat in staat is tot zero-shot TTS en diverse spraaktransformatietaken, waarbij zowel schone als ruisige signalen worden verwerkt. SpeechX combineert neurale codec-taalmodellering met multi-task learning door gebruik te maken van taakafhankelijke prompting, wat een uniforme en uitbreidbare modellering mogelijk maakt en een consistente manier biedt om tekstuele invoer te benutten bij spraakverbetering en transformatietaken. Experimentele resultaten tonen de effectiviteit van SpeechX in verschillende taken, waaronder zero-shot TTS, ruisonderdrukking, extractie van doelsprekers, spraakverwijdering en spraakbewerking met of zonder achtergrondruis, waarbij het vergelijkbare of superieure prestaties bereikt ten opzichte van gespecialiseerde modellen voor verschillende taken. Zie https://aka.ms/speechx voor demosamples.

English

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.

SpeechX: Neuraal Codec Taalmodel als een Veelzijdige Spraaktransformer

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

Samenvatting

Support