ChatPaper.aiChatPaper

Vettore Accentuale: Manipolazione Controllabile dell'Accento per TTS Multilingue Senza Dati Accentati

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

March 8, 2026
Autori: Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI

Abstract

L'accento è una parte integrante della società, che riflette il multiculturalismo e plasma il modo in cui gli individui esprimono l'identità. La maggior parte dei parlanti inglesi sono non nativi (L2), eppure gli attuali sistemi di sintesi vocale (TTS) modellano principalmente l'inglese con accento americano a causa della limitata disponibilità di dati accentati. Proponiamo Accent Vector, una rappresentazione controllabile che consente la manipolazione dell'accento nei sistemi TTS multilingue senza richiedere dati di training accentati. Accent Vector è derivato mettendo a punto un sistema TTS su parlato nativo di una lingua diversa (ad esempio non inglese) e calcolando vettori di attività che catturano le caratteristiche accentuali (ad esempio in inglese). Scalando e interpolando il vettore, otteniamo un controllo granulare sulla forza dell'accento e generiamo un parlato con accento misto. Inoltre, il metodo generalizza oltre l'inglese, consentendo il controllo dell'accento su più lingue. Valutazioni oggettive e umane confermano l'efficacia di Accent Vector per un controllo accentuale granulare e composizionale.
English
Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.
PDF53March 29, 2026