LASE: Языково-адверсариальное кодирование говорящего для сохранения идентичности в индийских кросс-скриптовых системах
LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation
May 1, 2026
Авторы: Venkata Pushpak Teja Menta
cs.AI
Аннотация
Кодер диктора, используемый в многоязычном клонировании голоса, должен одинаково идентифицировать одного и того же говорящего независимо от того, на каком языке произнесена аудиозапись. Готовые энкодеры не справляются с этой задачей, и ошибка носит акцент-обусловленный характер. На корпусе из 1043 пар записей с западным акцентом (английский, хинди, телугу, тамильский) модель WavLM-base-plus-sv теряет 0.082 абсолютного косинусного сходства при смене языка одним голосом, а ECAPA-TDNN теряет 0.105. На корпусе из 1369 пар записей с индийским акцентом разрыв сокращается до 0.006 (WavLM-SV) и 0.044 (ECAPA-TDNN). Наибольшая утечка информации наблюдается в наиболее критичном для кросс-лингвального синтеза речи сценарии: когда система проецирует голос, не обученный на индийских языках, на индийские письменности. Мы представляем LASE (Language-Adversarial Speaker Encoder) — небольшую проекционную голову поверх замороженного WavLM-base-plus, обученную с двумя функциями потерь: контрстрастительной потерей с учителем по идентичности голоса и кросс-энтропией с градиентной реверсией против 4-языкового классификатора, которая заставляет эмбеддинг быть неинформативным относительно языка, сохраняя информативность о дикторе. Обученная на 1118 качественно отобранных кросс-лингвальных парах, синтезированных из 8 коммерческих многоязычных голосов, LASE демонстрирует остаточный разрыв, статистически неотличимый от нуля на обоих корпусах (Δ = 0.013 для западного акцента, Δ = 0.026 для индийского; оба 95% доверительных интервала бутстрэпа включают ноль) и увеличивает запас между кросс-лингвальным сравнением и базовым уровнем в 2.4-2.7 раза относительно обоих базовых моделей. Абляционное исследование ECAPA+GRL показывает, что цель GRL улучшает любую базовую архитектуру, но выбор WavLM также вносит вклад. В синтетической диаризации нескольких дикторов LASE соответствует ECAPA-TDNN по полноте распознавания дикторов при смене языка (0.788 против 0.789), используя ~в 100 раз меньше данных для обучения. Мы публикуем контрольную точку r1, оба корпуса и методологию бутстрэп-анализа.
English
A speaker encoder used in multilingual voice cloning should treat the same speaker identically regardless of which script the audio was uttered in. Off-the-shelf encoders do not, and the failure is accent-conditional. On a 1043-pair Western-accented voice corpus across English, Hindi, Telugu, and Tamil, WavLM-base-plus-sv loses 0.082 absolute cosine similarity when the same voice changes script and ECAPA-TDNN loses 0.105. On a 1369-pair Indian-accented voice corpus, the gap shrinks to 0.006 (WavLM-SV) and 0.044 (ECAPA-TDNN). The leak is largest where it matters most for cross-script TTS: when a system projects a non-Indic-trained voice into Indic scripts. We present LASE (Language-Adversarial Speaker Encoder), a small projection head over frozen WavLM-base-plus trained with two losses: a supervised contrastive loss over voice identity, and a gradient-reversal cross-entropy against a 4-language classifier that pushes the embedding to be language-uninformative while remaining speaker-informative. Trained on 1118 quality-gated cross-script pairs synthesised from 8 commercial multilingual voices, LASE's residual gap is consistent with zero on both corpora (Delta = 0.013 Western, Delta = 0.026 Indian; both bootstrap 95% CIs include zero) and amplifies the cross-script-vs-floor margin 2.4-2.7x over both baselines. An ECAPA+GRL ablation shows the GRL objective improves either backbone but the WavLM choice contributes too. In synthetic multi-speaker diarisation, LASE matches ECAPA-TDNN on cross-script speaker recall (0.788 vs 0.789) with ~100x less training data. We release the r1 checkpoint, both corpora, and the bootstrap recipe.