ChatPaper.aiChatPaper

MoVE: Перевод смеха и слёз с помощью смеси экспертов по вокализации в речевом переводе

MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

April 19, 2026
Авторы: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
cs.AI

Аннотация

Современные системы речевого перевода (S2ST) демонстрируют высокую смысловую точность, но последовательно удаляют невербальные вокализации (NV), такие как смех и плач, передающие прагматический подтекст, что существенно ограничивает их практическую применимость. Мы решаем эту проблему с помощью трёх ключевых вкладов. Во-первых, мы предлагаем конвейер синтеза для создания масштабируемых экспрессивных наборов данных, чтобы преодолеть проблему нехватки данных. Во-вторых, мы предлагаем MoVE — архитектуру смеси экспертов на основе LoRA со специализированными адаптерами для передачи экспрессии и маршрутизатором с мягким взвешиванием, который комбинирует экспертов для воспроизведения гибридных эмоциональных состояний. В-третьих, мы показываем, что предобученные AudioLLM обеспечивают поразительную эффективность данных: для достижения высоких результатов достаточно 30 минут тщательно отобранных данных. В задаче англо-китайского S2ST, в сравнении с сильными базовыми моделями, MoVE воспроизводит целевые NV в 76% случаев и достигает наивысших оценок естественности и эмоциональной достоверности по мнению людей среди всех сравниваемых систем, тогда как существующие системы S2ST сохраняют не более 14% NV.
English
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.
PDF01April 23, 2026