Vetor de Sotaque: Manipulação Controlável de Sotaque para TTS Multilíngue sem Dados com Sotaque
Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data
March 8, 2026
Autores: Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI
Resumo
O sotaque é uma parte integrante da sociedade, refletindo o multiculturalismo e moldando a forma como os indivíduos expressam a sua identidade. A maioria dos falantes de inglês são não nativos (L2), no entanto, os sistemas atuais de Text-To-Speech (TTS) modelam principalmente o inglês com sotaque americano devido à escassez de dados com sotaques variados. Propomos o Vetor de Sotaque, uma representação controlável que permite a manipulação do sotaque em sistemas TTS multilingues sem a necessidade de dados de treino com sotaques específicos. O Vetor de Sotaque é derivado através do *fine-tuning* de um sistema TTS com discurso nativo de um idioma diferente (ou seja, não inglês) e do cálculo de vetores de tarefa que capturam as características do sotaque (aplicadas ao inglês). Ao dimensionar e interpolar o vetor, conseguimos um controlo refinado sobre a intensidade do sotaque e geramos discurso com sotaque misto. Além disso, a solução generaliza-se para além do inglês, permitindo o controlo do sotaque em vários idiomas. Avaliações objetivas e humanas confirmam a eficácia do Vetor de Sotaque para um controlo refinado e composicional do sotaque.
English
Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.