LASE: 언어-적대적 화자 인코딩을 통한 인도계 문자 간 신원 정보 보존
LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation
May 1, 2026
저자: Venkata Pushpak Teja Menta
cs.AI
초록
다국어 음성 복제에 사용되는 화자 인코더는 오디오가 어떤 대본으로 발화되었는지와 관계없이 동일한 화자를 동일하게 처리해야 합니다. 기존 상용 인코더들은 이를 충족하지 못하며, 이러한 실패는 억양에 조건부입니다. 영어, 힌디어, 텔루구어, 타밀어로 구성된 1043쌍의 서양 억양 음성 코퍼스에서 WavLM-base-plus-sv는 동일한 음성이 대본을 변경할 때 0.082의 절대 코사인 유사도를 손실하고 ECAPA-TDNN은 0.105를 손실합니다. 1369쌍의 인도 억양 음성 코퍼스에서는 이 격차가 0.006(WavLM-SV) 및 0.044(ECAPA-TDNN)로 축소됩니다. 이러한 정보 누출은 비인도어권에 훈련된 음성을 인도어 계열 대본으로 투영할 때, 즉 교차-대본 TTS에서 가장 중요한 상황에서 가장 크게 발생합니다. 우리는 LASE(Language-Adversarial Speaker Encoder)를 제시합니다. 이는 고정된 WavLM-base-plus 위에 추가된 작은 프로젝션 헤드로, 두 가지 손실 함수로 훈련됩니다: 화자 신원에 대한 지도적 대조 손실(Supervised Contrastive Loss), 그리고 임베딩이 화자 정보는 유지하되 언어 정보는 무의미하게 만들도록 하는 4개 언어 분류기에 대한 그래디언트 반전 교차 엔트로피(Gradient-Reversal Cross-Entropy)입니다. 8개의 상용 다국어 음성으로 합성된 1118개의 품질 관리 교차-대본 쌍으로 훈련된 LASE의 잔여 격차는 두 코퍼스 모두에서 0과 일관되며(델타 = 0.013 서양 억양, 델타 = 0.026 인도 억양; 양측 부트스트랩 95% 신뢰구간이 0을 포함) 교차-대본 대 바닥선 마진을 두 기준 모델 대비 2.4-2.7배 증폭합니다. ECAPA+GRL을 이용한 Ablation 실험은 GRL 목표가 어떤 백본에든 개선을 가져오지만 WavLM 선택도 기여함을 보여줍니다. 합적 다화자 화자 분리(Diarisation) 작업에서 LASE는 약 100배 적은 훈련 데이터로 교차-대본 화자 재현율에서 ECAPA-TDNN과 동등한 성능(0.788 대 0.789)을 보입니다. 우리는 r1 체크포인트, 두 코퍼스, 그리고 부트스트랩 방법을 공개합니다.
English
A speaker encoder used in multilingual voice cloning should treat the same speaker identically regardless of which script the audio was uttered in. Off-the-shelf encoders do not, and the failure is accent-conditional. On a 1043-pair Western-accented voice corpus across English, Hindi, Telugu, and Tamil, WavLM-base-plus-sv loses 0.082 absolute cosine similarity when the same voice changes script and ECAPA-TDNN loses 0.105. On a 1369-pair Indian-accented voice corpus, the gap shrinks to 0.006 (WavLM-SV) and 0.044 (ECAPA-TDNN). The leak is largest where it matters most for cross-script TTS: when a system projects a non-Indic-trained voice into Indic scripts. We present LASE (Language-Adversarial Speaker Encoder), a small projection head over frozen WavLM-base-plus trained with two losses: a supervised contrastive loss over voice identity, and a gradient-reversal cross-entropy against a 4-language classifier that pushes the embedding to be language-uninformative while remaining speaker-informative. Trained on 1118 quality-gated cross-script pairs synthesised from 8 commercial multilingual voices, LASE's residual gap is consistent with zero on both corpora (Delta = 0.013 Western, Delta = 0.026 Indian; both bootstrap 95% CIs include zero) and amplifies the cross-script-vs-floor margin 2.4-2.7x over both baselines. An ECAPA+GRL ablation shows the GRL objective improves either backbone but the WavLM choice contributes too. In synthetic multi-speaker diarisation, LASE matches ECAPA-TDNN on cross-script speaker recall (0.788 vs 0.789) with ~100x less training data. We release the r1 checkpoint, both corpora, and the bootstrap recipe.