StreamVoice: Modelado de Lenguaje con Conciencia Contextual Transmisible para Conversión de Voz en Tiempo Real con Cero Ejemplos

Resumen

Los recientes avances en los modelos de lenguaje (LM) han demostrado un rendimiento impresionante en la conversión de voz (VC) en modo zero-shot. Sin embargo, los modelos de VC basados en LM existentes suelen aplicar una conversión offline desde la semántica de origen a las características acústicas, lo que requiere el discurso de origen completo y limita su implementación en aplicaciones en tiempo real. En este artículo, presentamos StreamVoice, un novedoso modelo basado en LM para VC en modo zero-shot que facilita la conversión en tiempo real dado cualquier prompt de hablante y discurso de origen. Específicamente, para habilitar la capacidad de streaming, StreamVoice emplea un LM completamente causal con conciencia del contexto y un predictor acústico independiente del tiempo, mientras procesa alternativamente características semánticas y acústicas en cada paso de tiempo de la autoregresión, lo que elimina la dependencia del discurso de origen completo. Para abordar la posible degradación del rendimiento debido al contexto incompleto en el procesamiento de streaming, mejoramos la conciencia del contexto del LM mediante dos estrategias: 1) previsión de contexto guiada por un modelo maestro, utilizando un modelo maestro para resumir el contexto semántico presente y futuro durante el entrenamiento para guiar la previsión del modelo sobre el contexto faltante; 2) estrategia de enmascaramiento semántico, promoviendo la predicción acústica a partir de la entrada semántica y acústica precedente corrompida, mejorando la capacidad de aprendizaje del contexto. Cabe destacar que StreamVoice es el primer modelo de VC en modo zero-shot basado en LM sin ningún tipo de mirada hacia adelante. Los resultados experimentales demuestran la capacidad de conversión en streaming de StreamVoice mientras mantiene un rendimiento zero-shot comparable a los sistemas de VC no streaming.

English

Recent language model (LM) advancements have showcased impressive zero-shot voice conversion (VC) performance. However, existing LM-based VC models usually apply offline conversion from source semantics to acoustic features, demanding the complete source speech, and limiting their deployment to real-time applications. In this paper, we introduce StreamVoice, a novel streaming LM-based model for zero-shot VC, facilitating real-time conversion given arbitrary speaker prompts and source speech. Specifically, to enable streaming capability, StreamVoice employs a fully causal context-aware LM with a temporal-independent acoustic predictor, while alternately processing semantic and acoustic features at each time step of autoregression which eliminates the dependence on complete source speech. To address the potential performance degradation from the incomplete context in streaming processing, we enhance the context-awareness of the LM through two strategies: 1) teacher-guided context foresight, using a teacher model to summarize the present and future semantic context during training to guide the model's forecasting for missing context; 2) semantic masking strategy, promoting acoustic prediction from preceding corrupted semantic and acoustic input, enhancing context-learning ability. Notably, StreamVoice is the first LM-based streaming zero-shot VC model without any future look-ahead. Experimental results demonstrate StreamVoice's streaming conversion capability while maintaining zero-shot performance comparable to non-streaming VC systems.

StreamVoice: Modelado de Lenguaje con Conciencia Contextual Transmisible para Conversión de Voz en Tiempo Real con Cero Ejemplos

StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion

Resumen

Support