MoVE : Traduction des rires et des larmes via un mélange d'experts en vocalisation pour la traduction parole-à-parole

Résumé

Les systèmes récents de traduction parole-parole (S2ST) atteignent une forte précision sémantique mais suppriment systématiquement les vocalisations non verbales (NV), telles que les rires et les pleurs qui véhiculent une intention pragmatique, ce qui limite sévèrement leur utilité pratique. Nous abordons ce problème via trois contributions. Premièrement, nous proposons un pipeline de synthèse pour constituer des jeux de données expressifs et évolutifs afin de surmonter la limitation due à la rareté des données. Deuxièmement, nous proposons MoVE, une architecture de type « mixture of LoRA experts » avec des adaptateurs spécialisés dans l'expressivité et un routeur à pondération douce qui combine les experts pour capturer des états expressifs hybrides. Troisièmement, nous montrons que les AudioLLM pré-entraînés permettent une efficacité remarquable des données : 30 minutes de données curatisées suffisent pour obtenir de solides performances. Sur la tâche de traduction parole-parole anglais-chinois, en comparaison avec des bases de référence solides, MoVE reproduit les NV cibles dans 76 % des cas et obtient les scores les plus élevés en naturalité et en fidélité émotionnelle évaluées par des humains parmi tous les systèmes comparés, alors que les systèmes S2ST existants préservent au maximum 14 % des NV.

English

Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.

MoVE : Traduction des rires et des larmes via un mélange d'experts en vocalisation pour la traduction parole-à-parole

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Résumé

Support