ChatPaper.aiChatPaper

Акцентный вектор: управляемое изменение акцента в многоязычном синтезе речи без использования акцентированных данных

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

March 8, 2026
Авторы: Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan
cs.AI

Аннотация

Акцент является неотъемлемой частью общества, отражая мультикультурализм и формируя способы выражения индивидуальной идентичности. Большинство говорящих на английском языке являются неносителями (L2), однако современные системы преобразования текста в речь (TTS) в основном моделируют английский с американским акцентом из-за ограниченности данных по акцентированной речи. Мы предлагаем Accent Vector — управляемое представление, которое позволяет манипулировать акцентом в многоязычных TTS-системах без необходимости в обучающих данных с акцентами. Accent Vector получается путем дообучения TTS-системы на речи носителей другого языка (т.е. не английского) и вычисления векторов задач, фиксирующих характеристики акцента (например, в английском). Масштабируя и интерполируя вектор, мы достигаем точного контроля над силой акцента и генерируем речь со смешанными акцентами. Кроме того, метод обобщается за пределы английского языка, обеспечивая контроль акцента в нескольких языках. Объективные и субъективные оценки подтверждают эффективность Accent Vector для точного и композиционного управления акцентом.
English
Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.
PDF53March 15, 2026