MoVE: Traduzindo Riso e Lágrimas via Mistura de Especialistas em Vocalização na Tradução de Fala para Fala

Resumo

Os sistemas recentes de Tradução de Fala para Fala (S2ST) alcançam alta precisão semântica, mas consistentemente removem vocalizações não verbais (NVs), como risos e choro que transmitem intenção pragmática, o que limita severamente sua utilidade prática. Abordamos este problema através de três contribuições. Primeiro, propomos um *pipeline* de síntese para criar conjuntos de dados expressivos e escaláveis, superando a limitação da escassez de dados. Segundo, propomos o MoVE, uma arquitetura de *Mixture-of-LoRA-Experts* com adaptadores especializados em expressividade e um roteador de ponderação suave que combina especialistas para capturar estados expressivos híbridos. Terceiro, mostramos que os AudioLLMs pré-treinados permitem uma eficiência de dados impressionante: 30 minutos de dados curados são suficientes para um desempenho robusto. Na tradução Inglês-Chinês, enquanto comparações com bases fortes mostram que os sistemas S2ST existentes preservam no máximo 14% das NVs, o MoVE reproduz as NVs-alvo em 76% dos casos e alcança a maior naturalidade e fidelidade emocional avaliadas por humanos entre todos os sistemas comparados.

English

Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.

MoVE: Traduzindo Riso e Lágrimas via Mistura de Especialistas em Vocalização na Tradução de Fala para Fala

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Resumo

Support