REINA: Geregulariseerd entropie-informatie-gebaseerd verlies voor efficiënte gelijktijdige spraakvertaling
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
August 7, 2025
Auteurs: Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu
cs.AI
Samenvatting
Simultane Spraakvertaling (SimulST) systemen verwerken audio terwijl ze tegelijkertijd vertaalde tekst of spraak uitvoeren. Dergelijke systemen staan voor de aanzienlijke uitdaging om een balans te vinden tussen vertaalkwaliteit en latentie. We introduceren een strategie om deze afweging te optimaliseren: wacht alleen op meer invoer als je daardoor informatie verkrijgt. Gebaseerd op deze strategie presenteren we Regularized Entropy INformation Adaptation (REINA), een nieuw verliesfunctie om een adaptief beleid te trainen met behulp van een bestaand niet-streamend vertaalmodel. We leiden REINA af uit principes van de informatietheorie en laten zien dat REINA helpt om de gerapporteerde Pareto-grens van de latentie/kwaliteit-afweging te verbeteren ten opzichte van eerdere werken. Door REINA te gebruiken, trainen we een SimulST-model voor Frans, Spaans en Duits, zowel van als naar het Engels. Door alleen te trainen op open source of synthetisch gegenereerde data, behalen we state-of-the-art (SOTA) streamingresultaten voor modellen van vergelijkbare grootte. We introduceren ook een metriek voor streaming-efficiëntie, die kwantitatief aantoont dat REINA de latentie/kwaliteit-afweging met wel 21% verbetert in vergelijking met eerdere benaderingen, genormaliseerd tegen niet-streamende baseline BLEU-scores.
English
Simultaneous Speech Translation (SimulST) systems stream in audio while
simultaneously emitting translated text or speech. Such systems face the
significant challenge of balancing translation quality and latency. We
introduce a strategy to optimize this tradeoff: wait for more input only if you
gain information by doing so. Based on this strategy, we present Regularized
Entropy INformation Adaptation (REINA), a novel loss to train an adaptive
policy using an existing non-streaming translation model. We derive REINA from
information theory principles and show that REINA helps push the reported
Pareto frontier of the latency/quality tradeoff over prior works. Utilizing
REINA, we train a SimulST model on French, Spanish and German, both from and
into English. Training on only open source or synthetically generated data, we
achieve state-of-the-art (SOTA) streaming results for models of comparable
size. We also introduce a metric for streaming efficiency, quantitatively
showing REINA improves the latency/quality trade-off by as much as 21% compared
to prior approaches, normalized against non-streaming baseline BLEU scores.