Accentvector: Beheersbare Accentmanipulatie voor Meertalige TTS zonder Geaccentueerde Data
Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data
March 8, 2026
Auteurs: Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI
Samenvatting
Een accent is een integraal onderdeel van de samenleving, weerspiegelt multiculturaliteit en beïnvloedt hoe individuen hun identiteit uitdrukken. De meerderheid van de Engelssprekenden zijn niet-moedertaalsprekers (L2), maar huidige Text-To-Speech (TTS)-systemen modelleren voornamelijk Amerikaans-Engelse accenten vanwege beperkte data over andere accenten. Wij stellen Accent Vector voor, een bestuurbare representatie die accentmanipulatie in meertalige TTS mogelijk maakt zonder dat er getrainde data over specifieke accenten voor nodig is. Accent Vector wordt afgeleid door een TTS-systeem te fine-tunen op moedertaalspraak van een andere taal (bijvoorbeeld niet-Engels) en taakvectoren te berekenen die accentkenmerken vastleggen (bijvoorbeeld in het Engels). Door de vector te schalen en te interpoleren, bereiken we gedetailleerde controle over de accentsterkte en genereren we spraak met gemengde accenten. Bovendien generaliseert de methode buiten het Engels, waardoor accentcontrole over meerdere talen mogelijk wordt. Objectieve en menselijke evaluaties bevestigen de effectiviteit van Accent Vector voor gedetailleerde en compositionele accentcontrole.
English
Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.