REINA : Perte basée sur l'entropie régularisée pour une traduction simultanée de la parole efficace
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
August 7, 2025
papers.authors: Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu
cs.AI
papers.abstract
Les systèmes de traduction simultanée de la parole (SimulST) traitent l'audio en flux continu tout en produisant simultanément du texte ou de la parole traduite. Ces systèmes sont confrontés au défi majeur d'équilibrer la qualité de la traduction et la latence. Nous introduisons une stratégie pour optimiser ce compromis : attendre davantage d'entrée uniquement si cela permet d'obtenir des informations supplémentaires. Sur la base de cette stratégie, nous présentons Regularized Entropy INformation Adaptation (REINA), une nouvelle fonction de perte pour entraîner une politique adaptative en utilisant un modèle de traduction non-streaming existant. Nous dérivons REINA à partir des principes de la théorie de l'information et montrons que REINA permet de repousser la frontière de Pareto rapportée du compromis latence/qualité par rapport aux travaux antérieurs. En utilisant REINA, nous entraînons un modèle SimulST sur le français, l'espagnol et l'allemand, à la fois depuis et vers l'anglais. En nous appuyant uniquement sur des données open source ou générées synthétiquement, nous obtenons des résultats de streaming à l'état de l'art (SOTA) pour des modèles de taille comparable. Nous introduisons également une métrique d'efficacité du streaming, montrant quantitativement que REINA améliore le compromis latence/qualité jusqu'à 21 % par rapport aux approches précédentes, normalisé par rapport aux scores BLEU de référence non-streaming.
English
Simultaneous Speech Translation (SimulST) systems stream in audio while
simultaneously emitting translated text or speech. Such systems face the
significant challenge of balancing translation quality and latency. We
introduce a strategy to optimize this tradeoff: wait for more input only if you
gain information by doing so. Based on this strategy, we present Regularized
Entropy INformation Adaptation (REINA), a novel loss to train an adaptive
policy using an existing non-streaming translation model. We derive REINA from
information theory principles and show that REINA helps push the reported
Pareto frontier of the latency/quality tradeoff over prior works. Utilizing
REINA, we train a SimulST model on French, Spanish and German, both from and
into English. Training on only open source or synthetically generated data, we
achieve state-of-the-art (SOTA) streaming results for models of comparable
size. We also introduce a metric for streaming efficiency, quantitatively
showing REINA improves the latency/quality trade-off by as much as 21% compared
to prior approaches, normalized against non-streaming baseline BLEU scores.