Attenzione Multi-Testa Monotona Efficiente

Abstract

Presentiamo l'Efficient Monotonic Multihead Attention (EMMA), un modello all'avanguardia per la traduzione simultanea con stima dell'allineamento monotono numericamente stabile e imparziale. Inoltre, proponiamo strategie migliorate per l'addestramento e l'inferenza, tra cui il fine-tuning simultaneo a partire da un modello di traduzione offline e la riduzione della varianza nell'allineamento monotono. I risultati sperimentali dimostrano che il modello proposto raggiunge prestazioni all'avanguardia nella traduzione simultanea da voce a testo per il compito di traduzione tra spagnolo e inglese.

English

We introduce the Efficient Monotonic Multihead Attention (EMMA), a state-of-the-art simultaneous translation model with numerically-stable and unbiased monotonic alignment estimation. In addition, we present improved training and inference strategies, including simultaneous fine-tuning from an offline translation model and reduction of monotonic alignment variance. The experimental results demonstrate that the proposed model attains state-of-the-art performance in simultaneous speech-to-text translation on the Spanish and English translation task.