Apprendimento di Livelli Specifici per Lingua nella Traduzione Automatica Multilingue
Learning Language-Specific Layers for Multilingual Machine Translation
May 4, 2023
Autori: Telmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz
cs.AI
Abstract
La traduzione automatica multilingue promette di migliorare la qualità della traduzione tra lingue diverse dall'inglese. Questo è vantaggioso per diversi motivi, in particolare una minore latenza (non è necessario tradurre due volte) e una riduzione delle cascate di errori (ad esempio, evitando di perdere informazioni sul genere e sulla formalità quando si traduce attraverso l'inglese). D'altro canto, l'aggiunta di più lingue riduce la capacità del modello per ciascuna lingua, che di solito viene contrastata aumentando le dimensioni complessive del modello, rendendo più difficile l'addestramento e più lenta l'inferenza. In questo lavoro, introduciamo i Livelli Transformer Specifici per Lingua (LSL), che ci permettono di aumentare la capacità del modello, mantenendo costante la quantità di calcolo e il numero di parametri utilizzati nel passaggio in avanti. L'idea chiave è che alcuni livelli dell'encoder siano specifici per la lingua sorgente o target, mentre i restanti livelli rimangono condivisi. Studiamo il modo migliore per posizionare questi livelli utilizzando un approccio ispirato alla ricerca di architetture neurali e otteniamo un miglioramento di 1,3 punti chrF (1,5 spBLEU) rispetto al non utilizzo degli LSL su un'architettura di decoder separata e di 1,9 punti chrF (2,2 spBLEU) su una con decoder condiviso.
English
Multilingual Machine Translation promises to improve translation quality
between non-English languages. This is advantageous for several reasons, namely
lower latency (no need to translate twice), and reduced error cascades (e.g.,
avoiding losing gender and formality information when translating through
English). On the downside, adding more languages reduces model capacity per
language, which is usually countered by increasing the overall model size,
making training harder and inference slower. In this work, we introduce
Language-Specific Transformer Layers (LSLs), which allow us to increase model
capacity, while keeping the amount of computation and the number of parameters
used in the forward pass constant. The key idea is to have some layers of the
encoder be source or target language-specific, while keeping the remaining
layers shared. We study the best way to place these layers using a neural
architecture search inspired approach, and achieve an improvement of 1.3 chrF
(1.5 spBLEU) points over not using LSLs on a separate decoder architecture, and
1.9 chrF (2.2 spBLEU) on a shared decoder one.