Apprendimento di Livelli Specifici per Lingua nella Traduzione Automatica Multilingue

Abstract

La traduzione automatica multilingue promette di migliorare la qualità della traduzione tra lingue diverse dall'inglese. Questo è vantaggioso per diversi motivi, in particolare una minore latenza (non è necessario tradurre due volte) e una riduzione delle cascate di errori (ad esempio, evitando di perdere informazioni sul genere e sulla formalità quando si traduce attraverso l'inglese). D'altro canto, l'aggiunta di più lingue riduce la capacità del modello per ciascuna lingua, che di solito viene contrastata aumentando le dimensioni complessive del modello, rendendo più difficile l'addestramento e più lenta l'inferenza. In questo lavoro, introduciamo i Livelli Transformer Specifici per Lingua (LSL), che ci permettono di aumentare la capacità del modello, mantenendo costante la quantità di calcolo e il numero di parametri utilizzati nel passaggio in avanti. L'idea chiave è che alcuni livelli dell'encoder siano specifici per la lingua sorgente o target, mentre i restanti livelli rimangono condivisi. Studiamo il modo migliore per posizionare questi livelli utilizzando un approccio ispirato alla ricerca di architetture neurali e otteniamo un miglioramento di 1,3 punti chrF (1,5 spBLEU) rispetto al non utilizzo degli LSL su un'architettura di decoder separata e di 1,9 punti chrF (2,2 spBLEU) su una con decoder condiviso.

English

Multilingual Machine Translation promises to improve translation quality between non-English languages. This is advantageous for several reasons, namely lower latency (no need to translate twice), and reduced error cascades (e.g., avoiding losing gender and formality information when translating through English). On the downside, adding more languages reduces model capacity per language, which is usually countered by increasing the overall model size, making training harder and inference slower. In this work, we introduce Language-Specific Transformer Layers (LSLs), which allow us to increase model capacity, while keeping the amount of computation and the number of parameters used in the forward pass constant. The key idea is to have some layers of the encoder be source or target language-specific, while keeping the remaining layers shared. We study the best way to place these layers using a neural architecture search inspired approach, and achieve an improvement of 1.3 chrF (1.5 spBLEU) points over not using LSLs on a separate decoder architecture, and 1.9 chrF (2.2 spBLEU) on a shared decoder one.

Apprendimento di Livelli Specifici per Lingua nella Traduzione Automatica Multilingue

Learning Language-Specific Layers for Multilingual Machine Translation

Abstract

Support