StreamVoice: 실시간 제로샷 음성 변환을 위한 스트리밍 가능한 상황 인식 언어 모델링
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
January 19, 2024
저자: Zhichao Wang, Yuanzhe Chen, Xinsheng Wang, Zhuo Chen, Lei Xie, Yuping Wang, Yuxuan Wang
cs.AI
초록
최근 언어 모델(LM)의 발전은 인상적인 제로샷 음성 변환(VC) 성능을 보여주고 있습니다. 그러나 기존의 LM 기반 VC 모델은 일반적으로 소스 의미론에서 음향 특성으로의 오프라인 변환을 적용하며, 완전한 소스 음성을 요구함으로써 실시간 애플리케이션에의 배포가 제한됩니다. 본 논문에서는 임의의 화자 프롬프트와 소스 음성이 주어졌을 때 실시간 변환을 가능하게 하는 새로운 스트리밍 LM 기반 제로샷 VC 모델인 StreamVoice를 소개합니다. 구체적으로, 스트리밍 기능을 가능하게 하기 위해 StreamVoice는 시간적으로 독립적인 음향 예측기를 가진 완전한 인과적 맥락 인식 LM을 사용하며, 자동회귀의 각 시간 단계에서 의미론적 및 음향적 특성을 번갈아 처리함으로써 완전한 소스 음성에 대한 의존성을 제거합니다. 스트리밍 처리에서 불완전한 맥락으로 인한 성능 저하를 해결하기 위해, 우리는 두 가지 전략을 통해 LM의 맥락 인식 능력을 강화합니다: 1) 교사 모델을 사용하여 현재 및 미래의 의미론적 맥락을 요약하여 훈련 중에 모델의 미래 맥락 예측을 안내하는 교사 주도 맥락 예측, 2) 선행하는 손상된 의미론적 및 음향적 입력으로부터 음향 예측을 촉진하여 맥락 학습 능력을 강화하는 의미론적 마스킹 전략. 특히, StreamVoice는 미래 정보를 전혀 사용하지 않는 최초의 LM 기반 스트리밍 제로샷 VC 모델입니다. 실험 결과는 StreamVoice가 스트리밍 변환 능력을 유지하면서도 비스트리밍 VC 시스템과 비슷한 수준의 제로샷 성능을 유지함을 보여줍니다.
English
Recent language model (LM) advancements have showcased impressive zero-shot
voice conversion (VC) performance. However, existing LM-based VC models usually
apply offline conversion from source semantics to acoustic features, demanding
the complete source speech, and limiting their deployment to real-time
applications. In this paper, we introduce StreamVoice, a novel streaming
LM-based model for zero-shot VC, facilitating real-time conversion given
arbitrary speaker prompts and source speech. Specifically, to enable streaming
capability, StreamVoice employs a fully causal context-aware LM with a
temporal-independent acoustic predictor, while alternately processing semantic
and acoustic features at each time step of autoregression which eliminates the
dependence on complete source speech. To address the potential performance
degradation from the incomplete context in streaming processing, we enhance the
context-awareness of the LM through two strategies: 1) teacher-guided context
foresight, using a teacher model to summarize the present and future semantic
context during training to guide the model's forecasting for missing context;
2) semantic masking strategy, promoting acoustic prediction from preceding
corrupted semantic and acoustic input, enhancing context-learning ability.
Notably, StreamVoice is the first LM-based streaming zero-shot VC model without
any future look-ahead. Experimental results demonstrate StreamVoice's streaming
conversion capability while maintaining zero-shot performance comparable to
non-streaming VC systems.