MoVE: Übersetzung von Lachen und Tränen durch Mischung von Vokalisationsexperten in der Sprach-zu-Sprach-Übersetzung
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
April 19, 2026
Autoren: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
cs.AI
Zusammenfassung
Aktuelle Systeme für die Sprach-zu-Sprach-Übersetzung (S2ST) erreichen zwar eine hohe semantische Genauigkeit, entfernen jedoch konsequent non-verbale Vokalisationen (NV) wie Lachen oder Weinen, die pragmatische Absichten vermitteln. Dies schränkt ihren praktischen Nutzen erheblich ein. Wir adressieren dieses Problem mit drei Beiträgen. Erstens schlagen wir eine Synthese-Pipeline vor, um skalierbare expressive Datensätze zu erstellen und so die Datenknappheit zu überwinden. Zweitens präsentieren wir MoVE, eine Mixture-of-LoRA-Experts-Architektur mit expressiv-spezialisierten Adaptern und einem Soft-Weighting-Router, der Experten zur Erfassung hybrider Ausdruckszustände kombiniert. Drittens zeigen wir, dass vortrainierte AudioLLMs eine bemerkenswerte Dateneffizienz ermöglichen: Bereits 30 Minuten kuratierter Daten genügen für eine hohe Leistungsfähigkeit. Im Englisch-Chinesisch-S2ST-Vergleich mit starken Baselines reproduziert MoVE Ziel-NVs in 76 % der Fälle und erzielt die höchste von menschlichen Bewertern eingestufte Natürlichkeit und emotionale Treue unter allen verglichenen Systemen, wobei bestehende S2ST-Systeme maximal 14 % der NVs erhalten.
English
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.