REINA: 効率的な同時音声翻訳のための正則化エントロピー情報ベース損失関数
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
August 7, 2025
著者: Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu
cs.AI
要旨
同時音声翻訳(SimulST)システムは、音声をストリーミングしながら同時に翻訳されたテキストまたは音声を出力する。このようなシステムは、翻訳品質と遅延のバランスを取るという重要な課題に直面している。本論文では、このトレードオフを最適化するための戦略を提案する:情報を得られる場合にのみ、より多くの入力を待つ。この戦略に基づき、既存の非ストリーミング翻訳モデルを使用して適応ポリシーを訓練するための新しい損失関数であるRegularized Entropy INformation Adaptation(REINA)を提示する。REINAは情報理論の原則から導出され、REINAが報告された遅延/品質のトレードオフのパレートフロンティアを従来の研究よりも押し上げることを示す。REINAを活用し、フランス語、スペイン語、ドイツ語の英語との双方向のSimulSTモデルを訓練する。オープンソースまたは合成生成データのみを使用して訓練し、同等のサイズのモデルにおいて最先端(SOTA)のストリーミング結果を達成する。また、ストリーミング効率のための指標を導入し、REINAが従来のアプローチと比較して遅延/品質のトレードオフを最大21%改善することを定量的に示す。これは非ストリーミングベースラインのBLEUスコアに対して正規化されたものである。
English
Simultaneous Speech Translation (SimulST) systems stream in audio while
simultaneously emitting translated text or speech. Such systems face the
significant challenge of balancing translation quality and latency. We
introduce a strategy to optimize this tradeoff: wait for more input only if you
gain information by doing so. Based on this strategy, we present Regularized
Entropy INformation Adaptation (REINA), a novel loss to train an adaptive
policy using an existing non-streaming translation model. We derive REINA from
information theory principles and show that REINA helps push the reported
Pareto frontier of the latency/quality tradeoff over prior works. Utilizing
REINA, we train a SimulST model on French, Spanish and German, both from and
into English. Training on only open source or synthetically generated data, we
achieve state-of-the-art (SOTA) streaming results for models of comparable
size. We also introduce a metric for streaming efficiency, quantitatively
showing REINA improves the latency/quality trade-off by as much as 21% compared
to prior approaches, normalized against non-streaming baseline BLEU scores.