StreamVoice: Streamfähiges kontextbewusstes Sprachmodellierung für Echtzeit-Zero-Shot-Sprachumwandlung
StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion
January 19, 2024
Autoren: Zhichao Wang, Yuanzhe Chen, Xinsheng Wang, Zhuo Chen, Lei Xie, Yuping Wang, Yuxuan Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Sprachmodellen (LM) haben beeindruckende Zero-Shot-Leistungen bei der Sprachumwandlung (Voice Conversion, VC) gezeigt. Bestehende LM-basierte VC-Modelle wenden jedoch üblicherweise eine Offline-Umwandlung von Quellsemantik zu akustischen Merkmalen an, was das vollständige Quellsprachsignal erfordert und ihren Einsatz in Echtzeitanwendungen einschränkt. In diesem Artikel stellen wir StreamVoice vor, ein neuartiges Streaming-Modell für Zero-Shot-VC auf LM-Basis, das eine Echtzeitumwandlung bei beliebigen Sprecherprompts und Quellsprache ermöglicht. Um Streaming-Fähigkeit zu erreichen, verwendet StreamVoice ein vollständig kausales kontextbewusstes LM mit einem zeitlich unabhängigen akustischen Prädiktor, während es semantische und akustische Merkmale in jedem Zeitschritt der Autoregression abwechselnd verarbeitet, wodurch die Abhängigkeit vom vollständigen Quellsprachsignal entfällt. Um die potenzielle Leistungsminderung durch unvollständigen Kontext bei der Streaming-Verarbeitung zu adressieren, verbessern wir die Kontextbewusstheit des LM durch zwei Strategien: 1) leitergestützte Kontextvorausschau, bei der ein Lehrermodell während des Trainings den gegenwärtigen und zukünftigen semantischen Kontext zusammenfasst, um die Vorhersage des Modells für fehlenden Kontext zu leiten; 2) semantische Maskierungsstrategie, die die akustische Vorhersage aus vorhergehenden verfälschten semantischen und akustischen Eingaben fördert und die Fähigkeit zum Kontextlernen verbessert. Bemerkenswerterweise ist StreamVoice das erste LM-basierte Streaming-Modell für Zero-Shot-VC ohne jeglichen Vorausblick in die Zukunft. Experimentelle Ergebnisse demonstrieren die Streaming-Umwandlungsfähigkeit von StreamVoice bei gleichzeitiger Aufrechterhaltung einer Zero-Shot-Leistung, die mit nicht-streaming VC-Systemen vergleichbar ist.
English
Recent language model (LM) advancements have showcased impressive zero-shot
voice conversion (VC) performance. However, existing LM-based VC models usually
apply offline conversion from source semantics to acoustic features, demanding
the complete source speech, and limiting their deployment to real-time
applications. In this paper, we introduce StreamVoice, a novel streaming
LM-based model for zero-shot VC, facilitating real-time conversion given
arbitrary speaker prompts and source speech. Specifically, to enable streaming
capability, StreamVoice employs a fully causal context-aware LM with a
temporal-independent acoustic predictor, while alternately processing semantic
and acoustic features at each time step of autoregression which eliminates the
dependence on complete source speech. To address the potential performance
degradation from the incomplete context in streaming processing, we enhance the
context-awareness of the LM through two strategies: 1) teacher-guided context
foresight, using a teacher model to summarize the present and future semantic
context during training to guide the model's forecasting for missing context;
2) semantic masking strategy, promoting acoustic prediction from preceding
corrupted semantic and acoustic input, enhancing context-learning ability.
Notably, StreamVoice is the first LM-based streaming zero-shot VC model without
any future look-ahead. Experimental results demonstrate StreamVoice's streaming
conversion capability while maintaining zero-shot performance comparable to
non-streaming VC systems.