LASE: Codificación del Hablante con Adversariedad Lingüística para la Preservación de la Identidad Interescritura en Lenguas Índicas

Resumen

Un codificador de hablante utilizado en la clonación de voz multilingüe debe tratar al mismo hablante de forma idéntica, independientemente del idioma en el que se haya pronunciado el audio. Los codificadores disponibles no lo hacen, y el fallo es condicional al acento. En un corpus de 1043 pares de voces con acento occidental en inglés, hindi, telugu y tamil, WavLM-base-plus-sv pierde 0.082 de similitud de coseno absoluta cuando la misma voz cambia de idioma, y ECAPA-TDNN pierde 0.105. En un corpus de 1369 pares de voces con acento indio, la brecha se reduce a 0.006 (WavLM-SV) y 0.044 (ECAPA-TDNN). La fuga es mayor donde más importa para el TTS entre idiomas: cuando un sistema proyecta una voz no entrenada en idiomas índicos a scripts índicos. Presentamos LASE (Language-Adversarial Speaker Encoder), una pequeña cabeza de proyección sobre WavLM-base-plus congelado, entrenada con dos pérdidas: una pérdida contrastiva supervisada sobre la identidad de voz, y una entropía cruzada con reversión de gradiente contra un clasificador de 4 idiomas que empuja al embedding a ser no informativo del idioma mientras permanece informativo del hablante. Entrenado en 1118 pares entre idiomas con control de calidad sintetizados a partir de 8 voces multilingües comerciales, la brecha residual de LASE es consistente con cero en ambos corpus (Delta = 0.013 Occidental, Delta = 0.026 Indio; ambos IC bootstrap del 95% incluyen el cero) y amplifica el margen entre-script-vs-piso 2.4-2.7x sobre ambas líneas base. Una ablación ECAPA+GRL muestra que el objetivo GRL mejora cualquier backbone, pero la elección de WavLM también contribuye. En diarización de múltiples hablantes sintética, LASE iguala a ECAPA-TDNN en la recuperación de hablantes entre idiomas (0.788 vs 0.789) con ~100x menos datos de entrenamiento. Publicamos el checkpoint r1, ambos corpus y la receta bootstrap.

English

A speaker encoder used in multilingual voice cloning should treat the same speaker identically regardless of which script the audio was uttered in. Off-the-shelf encoders do not, and the failure is accent-conditional. On a 1043-pair Western-accented voice corpus across English, Hindi, Telugu, and Tamil, WavLM-base-plus-sv loses 0.082 absolute cosine similarity when the same voice changes script and ECAPA-TDNN loses 0.105. On a 1369-pair Indian-accented voice corpus, the gap shrinks to 0.006 (WavLM-SV) and 0.044 (ECAPA-TDNN). The leak is largest where it matters most for cross-script TTS: when a system projects a non-Indic-trained voice into Indic scripts. We present LASE (Language-Adversarial Speaker Encoder), a small projection head over frozen WavLM-base-plus trained with two losses: a supervised contrastive loss over voice identity, and a gradient-reversal cross-entropy against a 4-language classifier that pushes the embedding to be language-uninformative while remaining speaker-informative. Trained on 1118 quality-gated cross-script pairs synthesised from 8 commercial multilingual voices, LASE's residual gap is consistent with zero on both corpora (Delta = 0.013 Western, Delta = 0.026 Indian; both bootstrap 95% CIs include zero) and amplifies the cross-script-vs-floor margin 2.4-2.7x over both baselines. An ECAPA+GRL ablation shows the GRL objective improves either backbone but the WavLM choice contributes too. In synthetic multi-speaker diarisation, LASE matches ECAPA-TDNN on cross-script speaker recall (0.788 vs 0.789) with ~100x less training data. We release the r1 checkpoint, both corpora, and the bootstrap recipe.

LASE: Codificación del Hablante con Adversariedad Lingüística para la Preservación de la Identidad Interescritura en Lenguas Índicas

LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

Resumen

Support