REINA: Perda Baseada em Informação de Entropia Regularizada para Tradução Simultânea de Fala Eficiente
REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation
August 7, 2025
Autores: Nameer Hirschkind, Joseph Liu, Mahesh Kumar Nandwana, Xiao Yu
cs.AI
Resumo
Os sistemas de Tradução Simultânea de Fala (SimulST) processam o áudio em tempo real enquanto emitem simultaneamente o texto ou fala traduzida. Tais sistemas enfrentam o desafio significativo de equilibrar a qualidade da tradução e a latência. Introduzimos uma estratégia para otimizar essa compensação: aguardar por mais entrada apenas se houver ganho de informação ao fazê-lo. Com base nessa estratégia, apresentamos a Adaptação de Informação de Entropia Regularizada (REINA), uma nova função de perda para treinar uma política adaptativa utilizando um modelo de tradução não simultânea existente. Derivamos a REINA a partir de princípios da teoria da informação e demonstramos que ela ajuda a avançar a fronteira de Pareto relatada na compensação entre latência e qualidade em relação a trabalhos anteriores. Utilizando a REINA, treinamos um modelo SimulST para francês, espanhol e alemão, tanto de quanto para o inglês. Treinando apenas com dados de código aberto ou gerados sinteticamente, alcançamos resultados de streaming de última geração (SOTA) para modelos de tamanho comparável. Também introduzimos uma métrica para eficiência de streaming, mostrando quantitativamente que a REINA melhora a compensação entre latência e qualidade em até 21% em comparação com abordagens anteriores, normalizada em relação às pontuações BLEU de linha de base não simultânea.
English
Simultaneous Speech Translation (SimulST) systems stream in audio while
simultaneously emitting translated text or speech. Such systems face the
significant challenge of balancing translation quality and latency. We
introduce a strategy to optimize this tradeoff: wait for more input only if you
gain information by doing so. Based on this strategy, we present Regularized
Entropy INformation Adaptation (REINA), a novel loss to train an adaptive
policy using an existing non-streaming translation model. We derive REINA from
information theory principles and show that REINA helps push the reported
Pareto frontier of the latency/quality tradeoff over prior works. Utilizing
REINA, we train a SimulST model on French, Spanish and German, both from and
into English. Training on only open source or synthetically generated data, we
achieve state-of-the-art (SOTA) streaming results for models of comparable
size. We also introduce a metric for streaming efficiency, quantitatively
showing REINA improves the latency/quality trade-off by as much as 21% compared
to prior approaches, normalized against non-streaming baseline BLEU scores.