REINA: Perdita basata su Informazione di Entropia Regolarizzata per la Traduzione Simultanea Efficace del Parlato
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
August 7, 2025
Autori: Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu
cs.AI
Abstract
I sistemi di traduzione simultanea del parlato (SimulST) elaborano l'audio in streaming mentre emettono simultaneamente testo o parlato tradotto. Tali sistemi affrontano la significativa sfida di bilanciare qualità della traduzione e latenza. Introduciamo una strategia per ottimizzare questo compromesso: attendere ulteriori input solo se si ottiene informazione farlo. Basandoci su questa strategia, presentiamo Regularized Entropy INformation Adaptation (REINA), una nuova funzione di perdita per addestrare una politica adattiva utilizzando un modello di traduzione non in streaming esistente. Deriviamo REINA dai principi della teoria dell'informazione e dimostriamo che REINA aiuta a spingere la frontiera di Pareto riportata del compromesso latenza/qualità oltre i lavori precedenti. Utilizzando REINA, addestriamo un modello SimulST su francese, spagnolo e tedesco, sia da che verso l'inglese. Addestrando solo su dati open source o generati sinteticamente, otteniamo risultati in streaming all'avanguardia (SOTA) per modelli di dimensioni comparabili. Introduciamo anche una metrica per l'efficienza dello streaming, mostrando quantitativamente che REINA migliora il compromesso latenza/qualità fino al 21% rispetto agli approcci precedenti, normalizzato rispetto ai punteggi BLEU di riferimento non in streaming.
English
Simultaneous Speech Translation (SimulST) systems stream in audio while
simultaneously emitting translated text or speech. Such systems face the
significant challenge of balancing translation quality and latency. We
introduce a strategy to optimize this tradeoff: wait for more input only if you
gain information by doing so. Based on this strategy, we present Regularized
Entropy INformation Adaptation (REINA), a novel loss to train an adaptive
policy using an existing non-streaming translation model. We derive REINA from
information theory principles and show that REINA helps push the reported
Pareto frontier of the latency/quality tradeoff over prior works. Utilizing
REINA, we train a SimulST model on French, Spanish and German, both from and
into English. Training on only open source or synthetically generated data, we
achieve state-of-the-art (SOTA) streaming results for models of comparable
size. We also introduce a metric for streaming efficiency, quantitatively
showing REINA improves the latency/quality trade-off by as much as 21% compared
to prior approaches, normalized against non-streaming baseline BLEU scores.