MoVE: Tradurre risate e lacrime tramite Mistura di Esperti di Vocalizzazione nella traduzione parlato-parlato
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
April 19, 2026
Autori: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
cs.AI
Abstract
I recenti sistemi di traduzione parlato-parlato (S2ST) raggiungono un'elevata accuratezza semantica, ma rimuovono sistematicamente le vocalizzazioni non verbali (NV), come risate e pianti che veicolano l'intento pragmatico, limitandone gravemente l'utilità pratica. Affrontiamo questo problema attraverso tre contributi. In primo luogo, proponiamo una pipeline di sintesi per costruire dataset espressivi scalabili al fine di superare la limitazione della scarsità di dati. In secondo luogo, proponiamo MoVE, un'architettura Mixture-of-LoRA-Experts con adattatori specializzati per l'espressività e un router a pesatura soft che combina gli esperti per catturare stati espressivi ibridi. In terzo luogo, dimostriamo che gli AudioLLM preaddestrati consentono una sorprendente efficienza dei dati: bastano 30 minuti di dati curati per ottenere prestazioni solide. Nella traduzione S2ST inglese-cinese, confrontandolo con baseline robuste, MoVE riproduce le NV target nel 76% dei casi e raggiunge la più alta naturalezza e fedeltà emotiva valutata dall'uomo tra tutti i sistemi confrontati, mentre i sistemi S2ST esistenti preservano al massimo il 14% delle NV.
English
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.