MoVE: Het Vertalen van Lachen en Tranen via een Mengsel van Vocalisatie-experts in Spraak-naar-Spraak Vertaling
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
April 19, 2026
Auteurs: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee
cs.AI
Samenvatting
Recente spraak-naar-spraakvertaling (S2ST) systemen bereiken een hoge semantische nauwkeurigheid, maar verwijderen consequent non-verbale vocalisaties (NV's), zoals gelach en huilen die pragmatische intentie overbrengen, wat de praktische bruikbaarheid ernstig beperkt. Wij pakken dit aan via drie bijdragen. Ten eerste stellen we een synthesepijplijn voor om schaalbare expressieve datasets te creëren en zo de beperking van dataschaarste te overwinnen. Ten tweede stellen we MoVE voor, een Mixture-of-LoRA-Experts architectuur met expressiegespecialiseerde adapters en een router met zachte gewichting die experts mengt om hybride expressieve toestanden vast te leggen. Ten derde tonen we aan dat voorgetrainde AudioLLM's een opmerkelijke data-efficiëntie mogelijk maken: 30 minuten gecureerde data volstaat voor sterke prestaties. Voor Engels-Chinese S2ST reproduceert MoVE, in vergelijking met sterke baseline-systemen, doel-NV's in 76% van de gevallen en behaalt het de hoogste door mensen beoordeelde natuurlijkheid en emotionele trouw van alle vergeleken systemen, terwijl bestaande S2ST-systemen hooguit 14% van de NV's behouden.
English
Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.