Ein Paradigmenwechsel in der maschinellen Übersetzung: Steigerung der Übersetzungsleistung großer Sprachmodelle
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models
September 20, 2023
Autoren: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI
Zusammenfassung
Generative Large Language Models (LLMs) haben bemerkenswerte Fortschritte in verschiedenen NLP-Aufgaben erzielt. Diese Fortschritte spiegeln sich jedoch nicht in der Übersetzungsaufgabe wider, insbesondere bei Modellen mit moderater Größe (d. h. 7B oder 13B Parametern), die nach wie vor hinter herkömmlichen überwachten Encoder-Decoder-Übersetzungsmodellen zurückbleiben. Frühere Studien haben versucht, die Übersetzungsfähigkeiten dieser moderaten LLMs zu verbessern, aber die erzielten Gewinne waren begrenzt. In dieser Studie schlagen wir einen neuartigen Fine-Tuning-Ansatz für LLMs vor, der speziell für die Übersetzungsaufgabe entwickelt wurde und den Bedarf an umfangreichen parallelen Daten, auf die traditionelle Übersetzungsmodelle üblicherweise angewiesen sind, eliminiert. Unser Ansatz besteht aus zwei Fine-Tuning-Stufen: anfängliches Fine-Tuning auf monolingualen Daten, gefolgt von nachfolgendem Fine-Tuning auf einer kleinen Menge hochwertiger paralleler Daten. Wir stellen das durch diese Strategie entwickelte LLM als Advanced Language Model-based trAnslator (ALMA) vor. Basierend auf LLaMA-2 als unserem zugrunde liegenden Modell zeigen unsere Ergebnisse, dass das Modell eine durchschnittliche Verbesserung von mehr als 12 BLEU und 12 COMET gegenüber seiner Zero-Shot-Leistung über 10 Übersetzungsrichtungen aus den Testdatensätzen von WMT'21 (2 Richtungen) und WMT'22 (8 Richtungen) erzielen kann. Die Leistung ist deutlich besser als alle bisherigen Arbeiten und sogar überlegen gegenüber dem NLLB-54B-Modell und GPT-3.5-text-davinci-003, obwohl es nur 7B oder 13B Parameter hat. Diese Methode legt den Grundstein für ein neuartiges Trainingsparadigma in der maschinellen Übersetzung.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements
in various NLP tasks. However, these advances have not been reflected in the
translation task, especially those with moderate model sizes (i.e., 7B or 13B
parameters), which still lag behind conventional supervised encoder-decoder
translation models. Previous studies have attempted to improve the translation
capabilities of these moderate LLMs, but their gains have been limited. In this
study, we propose a novel fine-tuning approach for LLMs that is specifically
designed for the translation task, eliminating the need for the abundant
parallel data that traditional translation models usually depend on. Our
approach consists of two fine-tuning stages: initial fine-tuning on monolingual
data followed by subsequent fine-tuning on a small set of high-quality parallel
data. We introduce the LLM developed through this strategy as Advanced Language
Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our
results show that the model can achieve an average improvement of more than 12
BLEU and 12 COMET over its zero-shot performance across 10 translation
directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test
datasets. The performance is significantly better than all prior work and even
superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or
13B parameters. This method establishes the foundation for a novel training
paradigm in machine translation.