Lernschichten für sprachspezifische Merkmale in der mehrsprachigen maschinellen Übersetzung

Zusammenfassung

Mehrsprachige maschinelle Übersetzung verspricht, die Übersetzungsqualität zwischen nicht-englischen Sprachen zu verbessern. Dies ist aus mehreren Gründen vorteilhaft, insbesondere aufgrund geringerer Latenz (keine Notwendigkeit einer doppelten Übersetzung) und reduzierter Fehlerkaskaden (z. B. Vermeidung des Verlusts von Genus- und Formalitätsinformationen bei der Übersetzung über Englisch). Als Nachteil verringert die Hinzufügung weiterer Sprachen die Modellkapazität pro Sprache, was üblicherweise durch eine Vergrößerung des Gesamtmodells kompensiert wird, was das Training erschwert und die Inferenz verlangsamt. In dieser Arbeit führen wir sprachspezifische Transformer-Schichten (Language-Specific Transformer Layers, LSLs) ein, die es uns ermöglichen, die Modellkapazität zu erhöhen, während die Menge der Berechnungen und die Anzahl der Parameter im Vorwärtsdurchlauf konstant bleiben. Die zentrale Idee besteht darin, einige Schichten des Encoders sprachspezifisch für die Quell- oder Zielsprache zu gestalten, während die übrigen Schichten gemeinsam genutzt werden. Wir untersuchen die beste Platzierung dieser Schichten mithilfe eines Ansatzes, der von der neuronalen Architektursuche inspiriert ist, und erzielen eine Verbesserung von 1,3 chrF (1,5 spBLEU) Punkten gegenüber der Nichtverwendung von LSLs in einer separaten Decoder-Architektur und 1,9 chrF (2,2 spBLEU) in einer gemeinsam genutzten Decoder-Architektur.

English

Multilingual Machine Translation promises to improve translation quality between non-English languages. This is advantageous for several reasons, namely lower latency (no need to translate twice), and reduced error cascades (e.g., avoiding losing gender and formality information when translating through English). On the downside, adding more languages reduces model capacity per language, which is usually countered by increasing the overall model size, making training harder and inference slower. In this work, we introduce Language-Specific Transformer Layers (LSLs), which allow us to increase model capacity, while keeping the amount of computation and the number of parameters used in the forward pass constant. The key idea is to have some layers of the encoder be source or target language-specific, while keeping the remaining layers shared. We study the best way to place these layers using a neural architecture search inspired approach, and achieve an improvement of 1.3 chrF (1.5 spBLEU) points over not using LSLs on a separate decoder architecture, and 1.9 chrF (2.2 spBLEU) on a shared decoder one.

Lernschichten für sprachspezifische Merkmale in der mehrsprachigen maschinellen Übersetzung

Learning Language-Specific Layers for Multilingual Machine Translation

Zusammenfassung

Support