StreamVoice : Modélisation contextuelle de langage en flux continu pour la conversion vocale en temps réel en mode zero-shot
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
January 19, 2024
Auteurs: Zhichao Wang, Yuanzhe Chen, Xinsheng Wang, Zhuo Chen, Lei Xie, Yuping Wang, Yuxuan Wang
cs.AI
Résumé
Les récents progrès des modèles de langage (LM) ont démontré des performances impressionnantes en conversion vocale (VC) zero-shot. Cependant, les modèles de VC basés sur les LM existants appliquent généralement une conversion hors ligne des sémantiques sources aux caractéristiques acoustiques, nécessitant la totalité du discours source et limitant ainsi leur déploiement dans des applications en temps réel. Dans cet article, nous présentons StreamVoice, un nouveau modèle de streaming basé sur les LM pour la VC zero-shot, facilitant la conversion en temps réel à partir de prompts de locuteurs arbitraires et de discours source. Plus précisément, pour permettre une capacité de streaming, StreamVoice utilise un LM entièrement causal avec une prédiction acoustique indépendante du temps, tout en traitant alternativement les caractéristiques sémantiques et acoustiques à chaque étape de l'autorégression, ce qui élimine la dépendance à l'égard du discours source complet. Pour remédier à la dégradation potentielle des performances due au contexte incomplet dans le traitement en streaming, nous renforçons la conscience contextuelle du LM grâce à deux stratégies : 1) une prévision contextuelle guidée par un enseignant, utilisant un modèle enseignant pour résumer le contexte sémantique présent et futur pendant l'entraînement afin de guider la prévision du modèle pour le contexte manquant ; 2) une stratégie de masquage sémantique, favorisant la prédiction acoustique à partir des entrées sémantiques et acoustiques précédentes corrompues, améliorant ainsi la capacité d'apprentissage contextuel. Il est à noter que StreamVoice est le premier modèle de streaming zero-shot VC basé sur les LM sans aucune anticipation future. Les résultats expérimentaux démontrent la capacité de conversion en streaming de StreamVoice tout en maintenant des performances zero-shot comparables à celles des systèmes de VC non-streaming.
English
Recent language model (LM) advancements have showcased impressive zero-shot
voice conversion (VC) performance. However, existing LM-based VC models usually
apply offline conversion from source semantics to acoustic features, demanding
the complete source speech, and limiting their deployment to real-time
applications. In this paper, we introduce StreamVoice, a novel streaming
LM-based model for zero-shot VC, facilitating real-time conversion given
arbitrary speaker prompts and source speech. Specifically, to enable streaming
capability, StreamVoice employs a fully causal context-aware LM with a
temporal-independent acoustic predictor, while alternately processing semantic
and acoustic features at each time step of autoregression which eliminates the
dependence on complete source speech. To address the potential performance
degradation from the incomplete context in streaming processing, we enhance the
context-awareness of the LM through two strategies: 1) teacher-guided context
foresight, using a teacher model to summarize the present and future semantic
context during training to guide the model's forecasting for missing context;
2) semantic masking strategy, promoting acoustic prediction from preceding
corrupted semantic and acoustic input, enhancing context-learning ability.
Notably, StreamVoice is the first LM-based streaming zero-shot VC model without
any future look-ahead. Experimental results demonstrate StreamVoice's streaming
conversion capability while maintaining zero-shot performance comparable to
non-streaming VC systems.