Akzentvektor: Kontrollierbare Akzentmanipulation für mehrsprachige TTS ohne akzentuierte Daten

Zusammenfassung

Akzente sind ein integraler Bestandteil der Gesellschaft, spiegeln Multikulturalismus wider und prägen, wie Individuen Identität ausdrücken. Die Mehrheit der Englischsprechenden sind Nicht-Muttersprachler (L2), doch aktuelle Text-zu-Sprache (TTS)-Systeme modellieren hauptsächlich amerikanisch akzentuiertes Englisch aufgrund begrenzter Akzentdaten. Wir schlagen Akzent-Vektoren vor, eine steuerbare Repräsentation, die Akzentmanipulation in mehrsprachigen TTS-Systemen ermöglicht, ohne akzentuierte Trainingsdaten zu benötigen. Akzent-Vektoren werden durch Feinabstimmung eines TTS-Systems mit Muttersprachendaten einer anderen Sprache (d.h. nicht-Englisch) abgeleitet und erfassen Akzentcharakteristika (im Englischen) durch Berechnung von Aufgabenvektoren. Durch Skalierung und Interpolation des Vektors erreichen wir fein abgestufte Kontrolle über die Akzentstärke und erzeugen Mischakzent-Sprache. Zudem generalisiert die Methode über Englisch hinaus und ermöglicht Akzentkontrolle über mehrere Sprachen. Objektive und menschliche Evaluationen bestätigen die Wirksamkeit von Akzent-Vektoren für fein abgestufte und kompositionelle Akzentkontrolle.

English

Accent is an integral part of society, reflecting multiculturalism and shaping how individuals express identity. The majority of English speakers are non-native (L2) speakers, yet current Text-To-Speech (TTS) systems primarily model American-accented English due limited accented data. We propose Accent Vector, a controllable representation that enables accent manipulation in multilingual TTS without requiring accented training data. Accent Vector is derived by fine-tuning a TTS system on native speech of a different language (i.e. non-English) and computing task vectors capturing accent characteristics (i.e. in English). By scaling and interpolating the vector, we achieve fine-grained control over accent strength and generate mixed-accent speech. In addition, it generalizes beyond English, enabling accent control across multiple languages. Objective and human evaluations confirm the effectiveness of Accent Vector for fine-grained and compositional accent control.

Akzentvektor: Kontrollierbare Akzentmanipulation für mehrsprachige TTS ohne akzentuierte Daten

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Zusammenfassung

Support