LASE: Sprach-adversarische Sprecherkodierung zur indischen skriptübergreifenden Identitätsbewahrung

Zusammenfassung

Ein Encoder für Sprechermerkmale, der in der mehrsprachigen Sprachsynthese eingesetzt wird, sollte denselben Sprecher unabhängig vom verwendeten Skript der Audioaufnahme identisch behandeln. Standard-Encoder erfüllen diese Anforderung nicht, wobei das Versagen akzentbedingt ist. Auf einem Korpus mit 1043 Stimmvergleichen mit westlichem Akzent über Englisch, Hindi, Telugu und Tamil verliert WavLM-base-plus-sv 0,082 absolute Kosinus-Ähnlichkeit, wenn dieselbe Stimme das Skript wechselt, und ECAPA-TDNN verliert 0,105. Auf einem Korpus mit 1369 Stimmvergleichen mit indischem Akzent verringert sich die Differenz auf 0,006 (WavLM-SV) und 0,044 (ECAPA-TDNN). Der größte Informationsverlust tritt genau dort auf, wo er für skriptübergreifende TTS am kritischsten ist: wenn ein System eine nicht auf indische Sprachen trainierte Stimme in indische Skripts projiziert. Wir stellen LASE (Language-Adversarial Speaker Encoder) vor, einen kleinen Projektionskopf auf einem eingefrorenen WavLM-base-plus, der mit zwei Verlustfunktionen trainiert wird: einem überwachten kontrastiven Verlust für die Sprecheridentität und einer gradientenumgekehrten Kreuzentropie gegen einen 4-Sprachen-Klassifikator, der den Embedding-Raum dazu zwingt, sprachuninformativ zu bleiben, während er sprecherinformativ bleibt. Trainiert mit 1118 qualitätsgeprüften skriptübergreifenden Paaren, die aus 8 kommerziellen mehrsprachigen Stimmen synthetisiert wurden, ist die verbleibende Differenz von LASE auf beiden Korpora konsistent mit Null (Delta = 0,013 westlich, Delta = 0,026 indisch; beide Bootstrap-95%-KIs schließen Null ein) und vergrößert die skriptübergreifende vs. Grundlinien-Marge um das 2,4-2,7-fache gegenüber beiden Baselines. Ein ECAPA+GRL-Ablationstest zeigt, dass das GRL-Ziel jeden Backbone verbessert, aber die Wahl von WavLM ebenfalls einen Beitrag leistet. Bei der synthetischen Diarisierung mehrerer Sprecher erreicht LASE mit ~100-mal weniger Trainingsdaten eine vergleichbare Leistung wie ECAPA-TDNN beim skriptübergreifenden Sprecher-Recall (0,788 vs. 0,789). Wir veröffentlichen den r1-Checkpoint, beide Korpora und das Bootstrap-Rezept.

English

A speaker encoder used in multilingual voice cloning should treat the same speaker identically regardless of which script the audio was uttered in. Off-the-shelf encoders do not, and the failure is accent-conditional. On a 1043-pair Western-accented voice corpus across English, Hindi, Telugu, and Tamil, WavLM-base-plus-sv loses 0.082 absolute cosine similarity when the same voice changes script and ECAPA-TDNN loses 0.105. On a 1369-pair Indian-accented voice corpus, the gap shrinks to 0.006 (WavLM-SV) and 0.044 (ECAPA-TDNN). The leak is largest where it matters most for cross-script TTS: when a system projects a non-Indic-trained voice into Indic scripts. We present LASE (Language-Adversarial Speaker Encoder), a small projection head over frozen WavLM-base-plus trained with two losses: a supervised contrastive loss over voice identity, and a gradient-reversal cross-entropy against a 4-language classifier that pushes the embedding to be language-uninformative while remaining speaker-informative. Trained on 1118 quality-gated cross-script pairs synthesised from 8 commercial multilingual voices, LASE's residual gap is consistent with zero on both corpora (Delta = 0.013 Western, Delta = 0.026 Indian; both bootstrap 95% CIs include zero) and amplifies the cross-script-vs-floor margin 2.4-2.7x over both baselines. An ECAPA+GRL ablation shows the GRL objective improves either backbone but the WavLM choice contributes too. In synthetic multi-speaker diarisation, LASE matches ECAPA-TDNN on cross-script speaker recall (0.788 vs 0.789) with ~100x less training data. We release the r1 checkpoint, both corpora, and the bootstrap recipe.

LASE: Sprach-adversarische Sprecherkodierung zur indischen skriptübergreifenden Identitätsbewahrung

LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

Zusammenfassung

Support