REINA: Pérdida Basada en Información de Entropía Regularizada para Traducción Simultánea de Habla Eficiente
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
August 7, 2025
Autores: Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu
cs.AI
Resumen
Los sistemas de Traducción Simultánea de Voz (SimulST) procesan audio en tiempo real mientras emiten simultáneamente texto o voz traducida. Dichos sistemas enfrentan el desafío significativo de equilibrar la calidad de la traducción y la latencia. Introducimos una estrategia para optimizar este equilibrio: esperar más entrada solo si se obtiene información al hacerlo. Basados en esta estrategia, presentamos Regularized Entropy INformation Adaptation (REINA), una nueva función de pérdida para entrenar una política adaptativa utilizando un modelo de traducción no simultáneo existente. Derivamos REINA a partir de principios de teoría de la información y demostramos que REINA ayuda a mejorar la frontera de Pareto reportada en el equilibrio latencia/calidad en comparación con trabajos previos. Utilizando REINA, entrenamos un modelo SimulST en francés, español y alemán, tanto desde como hacia el inglés. Entrenando únicamente con datos de código abierto o generados sintéticamente, logramos resultados de vanguardia (SOTA) en traducción simultánea para modelos de tamaño comparable. También introducimos una métrica para la eficiencia en streaming, mostrando cuantitativamente que REINA mejora el equilibrio latencia/calidad hasta en un 21% en comparación con enfoques anteriores, normalizado contra puntajes BLEU de líneas base no simultáneas.
English
Simultaneous Speech Translation (SimulST) systems stream in audio while
simultaneously emitting translated text or speech. Such systems face the
significant challenge of balancing translation quality and latency. We
introduce a strategy to optimize this tradeoff: wait for more input only if you
gain information by doing so. Based on this strategy, we present Regularized
Entropy INformation Adaptation (REINA), a novel loss to train an adaptive
policy using an existing non-streaming translation model. We derive REINA from
information theory principles and show that REINA helps push the reported
Pareto frontier of the latency/quality tradeoff over prior works. Utilizing
REINA, we train a SimulST model on French, Spanish and German, both from and
into English. Training on only open source or synthetically generated data, we
achieve state-of-the-art (SOTA) streaming results for models of comparable
size. We also introduce a metric for streaming efficiency, quantitatively
showing REINA improves the latency/quality trade-off by as much as 21% compared
to prior approaches, normalized against non-streaming baseline BLEU scores.