MoVE: Traducción de Risa y Llanto mediante Mezcla de Expertos en Vocalización en Traducción de Voz a Voz
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
April 19, 2026
Autores: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
cs.AI
Resumen
Los sistemas recientes de Traducción de Voz a Voz (S2ST) logran una alta precisión semántica, pero eliminan sistemáticamente las vocalizaciones no verbales (NV), como risas y llantos que transmiten intención pragmática, lo que limita severamente su utilidad práctica. Abordamos este problema mediante tres contribuciones. Primero, proponemos un pipeline de síntesis para construir conjuntos de datos expresivos y escalables que superen la limitación de escasez de datos. Segundo, proponemos MoVE, una arquitectura de Mezcla de Expertos LoRA con adaptadores especializados en expresividad y un enrutador de ponderación suave que combina expertos para capturar estados expresivos híbridos. Tercero, demostramos que los AudioLLM preentrenados permiten una sorprendente eficiencia de datos: 30 minutos de datos curados son suficientes para un rendimiento sólido. En S2ST inglés-chino, al compararlo con líneas base robustas, MoVE reproduce las NV objetivo en el 76% de los casos y logra la naturalidad y fidelidad emocional más altas según evaluación humana entre todos los sistemas comparados, mientras que los sistemas S2ST existentes preservan como máximo el 14% de las NV.
English
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.