Lernschichten für sprachspezifische Merkmale in der mehrsprachigen maschinellen Übersetzung
Learning Language-Specific Layers for Multilingual Machine Translation
May 4, 2023
Autoren: Telmo Pessoa Pires, Robin M. Schmidt, Yi-Hsiu Liao, Stephan Peitz
cs.AI
Zusammenfassung
Mehrsprachige maschinelle Übersetzung verspricht, die Übersetzungsqualität zwischen nicht-englischen Sprachen zu verbessern. Dies ist aus mehreren Gründen vorteilhaft, insbesondere aufgrund geringerer Latenz (keine Notwendigkeit einer doppelten Übersetzung) und reduzierter Fehlerkaskaden (z. B. Vermeidung des Verlusts von Genus- und Formalitätsinformationen bei der Übersetzung über Englisch). Als Nachteil verringert die Hinzufügung weiterer Sprachen die Modellkapazität pro Sprache, was üblicherweise durch eine Vergrößerung des Gesamtmodells kompensiert wird, was das Training erschwert und die Inferenz verlangsamt. In dieser Arbeit führen wir sprachspezifische Transformer-Schichten (Language-Specific Transformer Layers, LSLs) ein, die es uns ermöglichen, die Modellkapazität zu erhöhen, während die Menge der Berechnungen und die Anzahl der Parameter im Vorwärtsdurchlauf konstant bleiben. Die zentrale Idee besteht darin, einige Schichten des Encoders sprachspezifisch für die Quell- oder Zielsprache zu gestalten, während die übrigen Schichten gemeinsam genutzt werden. Wir untersuchen die beste Platzierung dieser Schichten mithilfe eines Ansatzes, der von der neuronalen Architektursuche inspiriert ist, und erzielen eine Verbesserung von 1,3 chrF (1,5 spBLEU) Punkten gegenüber der Nichtverwendung von LSLs in einer separaten Decoder-Architektur und 1,9 chrF (2,2 spBLEU) in einer gemeinsam genutzten Decoder-Architektur.
English
Multilingual Machine Translation promises to improve translation quality
between non-English languages. This is advantageous for several reasons, namely
lower latency (no need to translate twice), and reduced error cascades (e.g.,
avoiding losing gender and formality information when translating through
English). On the downside, adding more languages reduces model capacity per
language, which is usually countered by increasing the overall model size,
making training harder and inference slower. In this work, we introduce
Language-Specific Transformer Layers (LSLs), which allow us to increase model
capacity, while keeping the amount of computation and the number of parameters
used in the forward pass constant. The key idea is to have some layers of the
encoder be source or target language-specific, while keeping the remaining
layers shared. We study the best way to place these layers using a neural
architecture search inspired approach, and achieve an improvement of 1.3 chrF
(1.5 spBLEU) points over not using LSLs on a separate decoder architecture, and
1.9 chrF (2.2 spBLEU) on a shared decoder one.