ChatPaper.aiChatPaper

Vecteur d'Accent : Manipulation Contrôlable de l'Accent pour la Synthèse Vocale Multilingue Sans Données Accentuées

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

March 8, 2026
Auteurs: Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI

Résumé

L'accent est une composante intégrante de la société, reflétant le multiculturalisme et façonnant la manière dont les individus expriment leur identité. La majorité des locuteurs anglais sont non-natifs (L2), pourtant les systèmes de synthèse vocale actuels modélisent principalement l'anglais avec un accent américain en raison du manque de données accentuées. Nous proposons Accent Vector, une représentation contrôlable permettant la manipulation de l'accent dans la synthèse vocale multilingue sans nécessiter de données d'entraînement accentuées. Accent Vector est obtenu en affinant un système de synthèse vocale sur de la parole native d'une langue différente (c'est-à-dire non anglaise) et en calculant des vecteurs de tâche capturant les caractéristiques accentuelles (c'est-à-dire en anglais). En mettant à l'échelle et en interpolant le vecteur, nous obtenons un contrôle granulaire sur l'intensité de l'accent et générons une parole à accent mixte. De plus, cette méthode se généralise au-delà de l'anglais, permettant un contrôle de l'accent à travers plusieurs langues. Les évaluations objectives et humaines confirment l'efficacité d'Accent Vector pour un contrôle accentuel granulaire et compositionnel.
English
Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.
PDF53March 15, 2026