StreamVoice: Modelado de Lenguaje con Conciencia Contextual Transmisible para Conversión de Voz en Tiempo Real con Cero Ejemplos
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
January 19, 2024
Autores: Zhichao Wang, Yuanzhe Chen, Xinsheng Wang, Zhuo Chen, Lei Xie, Yuping Wang, Yuxuan Wang
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje (LM) han demostrado un rendimiento impresionante en la conversión de voz (VC) en modo zero-shot. Sin embargo, los modelos de VC basados en LM existentes suelen aplicar una conversión offline desde la semántica de origen a las características acústicas, lo que requiere el discurso de origen completo y limita su implementación en aplicaciones en tiempo real. En este artículo, presentamos StreamVoice, un novedoso modelo basado en LM para VC en modo zero-shot que facilita la conversión en tiempo real dado cualquier prompt de hablante y discurso de origen. Específicamente, para habilitar la capacidad de streaming, StreamVoice emplea un LM completamente causal con conciencia del contexto y un predictor acústico independiente del tiempo, mientras procesa alternativamente características semánticas y acústicas en cada paso de tiempo de la autoregresión, lo que elimina la dependencia del discurso de origen completo. Para abordar la posible degradación del rendimiento debido al contexto incompleto en el procesamiento de streaming, mejoramos la conciencia del contexto del LM mediante dos estrategias: 1) previsión de contexto guiada por un modelo maestro, utilizando un modelo maestro para resumir el contexto semántico presente y futuro durante el entrenamiento para guiar la previsión del modelo sobre el contexto faltante; 2) estrategia de enmascaramiento semántico, promoviendo la predicción acústica a partir de la entrada semántica y acústica precedente corrompida, mejorando la capacidad de aprendizaje del contexto. Cabe destacar que StreamVoice es el primer modelo de VC en modo zero-shot basado en LM sin ningún tipo de mirada hacia adelante. Los resultados experimentales demuestran la capacidad de conversión en streaming de StreamVoice mientras mantiene un rendimiento zero-shot comparable a los sistemas de VC no streaming.
English
Recent language model (LM) advancements have showcased impressive zero-shot
voice conversion (VC) performance. However, existing LM-based VC models usually
apply offline conversion from source semantics to acoustic features, demanding
the complete source speech, and limiting their deployment to real-time
applications. In this paper, we introduce StreamVoice, a novel streaming
LM-based model for zero-shot VC, facilitating real-time conversion given
arbitrary speaker prompts and source speech. Specifically, to enable streaming
capability, StreamVoice employs a fully causal context-aware LM with a
temporal-independent acoustic predictor, while alternately processing semantic
and acoustic features at each time step of autoregression which eliminates the
dependence on complete source speech. To address the potential performance
degradation from the incomplete context in streaming processing, we enhance the
context-awareness of the LM through two strategies: 1) teacher-guided context
foresight, using a teacher model to summarize the present and future semantic
context during training to guide the model's forecasting for missing context;
2) semantic masking strategy, promoting acoustic prediction from preceding
corrupted semantic and acoustic input, enhancing context-learning ability.
Notably, StreamVoice is the first LM-based streaming zero-shot VC model without
any future look-ahead. Experimental results demonstrate StreamVoice's streaming
conversion capability while maintaining zero-shot performance comparable to
non-streaming VC systems.