MoVE: Traduzindo Riso e Lágrimas via Mistura de Especialistas em Vocalização na Tradução de Fala para Fala
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
April 19, 2026
Autores: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
cs.AI
Resumo
Os sistemas recentes de Tradução de Fala para Fala (S2ST) alcançam alta precisão semântica, mas consistentemente removem vocalizações não verbais (NVs), como risos e choro que transmitem intenção pragmática, o que limita severamente sua utilidade prática. Abordamos este problema através de três contribuições. Primeiro, propomos um *pipeline* de síntese para criar conjuntos de dados expressivos e escaláveis, superando a limitação da escassez de dados. Segundo, propomos o MoVE, uma arquitetura de *Mixture-of-LoRA-Experts* com adaptadores especializados em expressividade e um roteador de ponderação suave que combina especialistas para capturar estados expressivos híbridos. Terceiro, mostramos que os AudioLLMs pré-treinados permitem uma eficiência de dados impressionante: 30 minutos de dados curados são suficientes para um desempenho robusto. Na tradução Inglês-Chinês, enquanto comparações com bases fortes mostram que os sistemas S2ST existentes preservam no máximo 14% das NVs, o MoVE reproduz as NVs-alvo em 76% dos casos e alcança a maior naturalidade e fidelidade emocional avaliadas por humanos entre todos os sistemas comparados.
English
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.