StreamVoice : Modélisation contextuelle de langage en flux continu pour la conversion vocale en temps réel en mode zero-shot

Résumé

Les récents progrès des modèles de langage (LM) ont démontré des performances impressionnantes en conversion vocale (VC) zero-shot. Cependant, les modèles de VC basés sur les LM existants appliquent généralement une conversion hors ligne des sémantiques sources aux caractéristiques acoustiques, nécessitant la totalité du discours source et limitant ainsi leur déploiement dans des applications en temps réel. Dans cet article, nous présentons StreamVoice, un nouveau modèle de streaming basé sur les LM pour la VC zero-shot, facilitant la conversion en temps réel à partir de prompts de locuteurs arbitraires et de discours source. Plus précisément, pour permettre une capacité de streaming, StreamVoice utilise un LM entièrement causal avec une prédiction acoustique indépendante du temps, tout en traitant alternativement les caractéristiques sémantiques et acoustiques à chaque étape de l'autorégression, ce qui élimine la dépendance à l'égard du discours source complet. Pour remédier à la dégradation potentielle des performances due au contexte incomplet dans le traitement en streaming, nous renforçons la conscience contextuelle du LM grâce à deux stratégies : 1) une prévision contextuelle guidée par un enseignant, utilisant un modèle enseignant pour résumer le contexte sémantique présent et futur pendant l'entraînement afin de guider la prévision du modèle pour le contexte manquant ; 2) une stratégie de masquage sémantique, favorisant la prédiction acoustique à partir des entrées sémantiques et acoustiques précédentes corrompues, améliorant ainsi la capacité d'apprentissage contextuel. Il est à noter que StreamVoice est le premier modèle de streaming zero-shot VC basé sur les LM sans aucune anticipation future. Les résultats expérimentaux démontrent la capacité de conversion en streaming de StreamVoice tout en maintenant des performances zero-shot comparables à celles des systèmes de VC non-streaming.

English

Recent language model (LM) advancements have showcased impressive zero-shot voice conversion (VC) performance. However, existing LM-based VC models usually apply offline conversion from source semantics to acoustic features, demanding the complete source speech, and limiting their deployment to real-time applications. In this paper, we introduce StreamVoice, a novel streaming LM-based model for zero-shot VC, facilitating real-time conversion given arbitrary speaker prompts and source speech. Specifically, to enable streaming capability, StreamVoice employs a fully causal context-aware LM with a temporal-independent acoustic predictor, while alternately processing semantic and acoustic features at each time step of autoregression which eliminates the dependence on complete source speech. To address the potential performance degradation from the incomplete context in streaming processing, we enhance the context-awareness of the LM through two strategies: 1) teacher-guided context foresight, using a teacher model to summarize the present and future semantic context during training to guide the model's forecasting for missing context; 2) semantic masking strategy, promoting acoustic prediction from preceding corrupted semantic and acoustic input, enhancing context-learning ability. Notably, StreamVoice is the first LM-based streaming zero-shot VC model without any future look-ahead. Experimental results demonstrate StreamVoice's streaming conversion capability while maintaining zero-shot performance comparable to non-streaming VC systems.

StreamVoice : Modélisation contextuelle de langage en flux continu pour la conversion vocale en temps réel en mode zero-shot

StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion

Résumé

Support