SpeechX: Modello Linguistico Neural Codec come Trasformatore Versatile per il Parlato

Abstract

I recenti progressi nei modelli generativi di sintesi vocale basati su prompt audio-testo hanno permesso innovazioni straordinarie come la sintesi vocale zero-shot di alta qualità. Tuttavia, i modelli esistenti presentano ancora limitazioni nella gestione di diverse attività di generazione vocale audio-testo che coinvolgono la trasformazione del parlato in ingresso e l'elaborazione di audio catturato in condizioni acustiche avverse. Questo articolo introduce SpeechX, un modello versatile di generazione vocale in grado di eseguire sintesi vocale zero-shot e varie attività di trasformazione del parlato, gestendo sia segnali puliti che rumorosi. SpeechX combina la modellazione linguistica di codec neurali con l'apprendimento multi-task utilizzando prompt dipendenti dal compito, consentendo una modellazione unificata ed estensibile e fornendo un modo coerente per sfruttare l'input testuale nelle attività di miglioramento e trasformazione del parlato. I risultati sperimentali dimostrano l'efficacia di SpeechX in varie attività, tra cui sintesi vocale zero-shot, soppressione del rumore, estrazione del parlato target, rimozione del parlato e modifica del parlato con o senza rumore di fondo, raggiungendo prestazioni comparabili o superiori rispetto a modelli specializzati in diverse attività. Vedi https://aka.ms/speechx per campioni dimostrativi.

English

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.

SpeechX: Modello Linguistico Neural Codec come Trasformatore Versatile per il Parlato

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

Abstract

Support