Vector de Acento: Manipulación Controlable del Acento para TTS Multilingüe Sin Datos Acentuados
Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data
March 8, 2026
Autores: Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI
Resumen
El acento es una parte integral de la sociedad, que refleja el multiculturalismo y moldea la forma en que los individuos expresan su identidad. La mayoría de los hablantes de inglés son no nativos (L2), sin embargo, los sistemas actuales de conversión de texto a voz (TTS) modelan principalmente el inglés con acento estadounidense debido a la limitada disponibilidad de datos con acentos diversos. Proponemos el Vector de Acento, una representación controlable que permite la manipulación del acento en sistemas TTS multilingües sin requerir datos de entrenamiento con acentos específicos. El Vector de Acento se deriva ajustando un sistema TTS con voz nativa de un idioma diferente (es decir, no inglés) y calculando vectores de tarea que capturan las características del acento (es decir, en inglés). Al escalar e interpolar el vector, logramos un control detallado sobre la intensidad del acento y generamos habla con acento mixto. Además, el método se generaliza más allá del inglés, permitiendo el control del acento en múltiples idiomas. Evaluaciones objetivas y humanas confirman la efectividad del Vector de Acento para un control detallado y composicional del acento.
English
Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.