LASE : Encodage de locuteur par adversité linguistique pour la préservation d'identité inter-scripte indic
LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation
May 1, 2026
Auteurs: Venkata Pushpak Teja Menta
cs.AI
Résumé
Un encodeur de locuteur utilisé dans le clonage vocal multilingue devrait traiter un même locuteur de manière identique, quel que soit le script dans lequel l'audio est prononcé. Les encodeurs prêts à l'emploi n'y parviennent pas, et cet échec est conditionné par l'accent. Sur un corpus de 1043 paires de voix à accent occidental (anglais, hindi, télougou et tamoul), WavLM-base-plus-sv perd 0.082 en similarité cosinus absolue lorsque la même voix change de script, et ECAPA-TDNN perd 0.105. Sur un corpus de 1369 paires de voix à accent indien, l'écart se réduit à 0.006 (WavLM-SV) et 0.044 (ECAPA-TDNN). La fuite d'information est la plus importante là où elle compte le plus pour la synthèse vocale trans-script : lorsqu'un système projette une voix non entraînée sur des scripts indiens dans des scripts indiques. Nous présentons LASE (Language-Adversarial Speaker Encoder), une petite tête de projection sur WavLM-base-plus figé, entraînée avec deux fonctions de perte : une perte contrastive supervisée sur l'identité vocale, et une entropie croisée à renversement de gradient (gradient reversal) contre un classifieur à 4 langues qui pousse l'embedding à être non informatif sur la langue tout en restant informatif sur le locuteur. Entraîné sur 1118 paires trans-script de qualité validée, synthétisées à partir de 8 voix multilingues commerciales, l'écart résiduel de LASE est compatible avec zéro sur les deux corpus (Δ = 0.013 pour l'accent occidental, Δ = 0.026 pour l'accent indien ; les deux intervalles de confiance à 95% bootstrap incluent zéro) et amplifie la marge trans-script/plancher de 2,4 à 2,7 fois par rapport aux deux modèles de référence. Une ablation ECAPA+GRL montre que l'objectif GRL améliore chaque architecture de base, mais le choix de WavLM y contribue également. Dans une tâche de diarisation multi-locuteur synthétique, LASE égale ECAPA-TDNN sur le rappel de locuteur trans-script (0,788 contre 0,789) avec environ 100 fois moins de données d'entraînement. Nous publions le checkpoint r1, les deux corpus et la procédure bootstrap.
English
A speaker encoder used in multilingual voice cloning should treat the same speaker identically regardless of which script the audio was uttered in. Off-the-shelf encoders do not, and the failure is accent-conditional. On a 1043-pair Western-accented voice corpus across English, Hindi, Telugu, and Tamil, WavLM-base-plus-sv loses 0.082 absolute cosine similarity when the same voice changes script and ECAPA-TDNN loses 0.105. On a 1369-pair Indian-accented voice corpus, the gap shrinks to 0.006 (WavLM-SV) and 0.044 (ECAPA-TDNN). The leak is largest where it matters most for cross-script TTS: when a system projects a non-Indic-trained voice into Indic scripts. We present LASE (Language-Adversarial Speaker Encoder), a small projection head over frozen WavLM-base-plus trained with two losses: a supervised contrastive loss over voice identity, and a gradient-reversal cross-entropy against a 4-language classifier that pushes the embedding to be language-uninformative while remaining speaker-informative. Trained on 1118 quality-gated cross-script pairs synthesised from 8 commercial multilingual voices, LASE's residual gap is consistent with zero on both corpora (Delta = 0.013 Western, Delta = 0.026 Indian; both bootstrap 95% CIs include zero) and amplifies the cross-script-vs-floor margin 2.4-2.7x over both baselines. An ECAPA+GRL ablation shows the GRL objective improves either backbone but the WavLM choice contributes too. In synthetic multi-speaker diarisation, LASE matches ECAPA-TDNN on cross-script speaker recall (0.788 vs 0.789) with ~100x less training data. We release the r1 checkpoint, both corpora, and the bootstrap recipe.