Ein Paradigmenwechsel in der maschinellen Übersetzung: Steigerung der Übersetzungsleistung großer Sprachmodelle

papers.abstract

Generative Large Language Models (LLMs) haben bemerkenswerte Fortschritte in verschiedenen NLP-Aufgaben erzielt. Diese Fortschritte spiegeln sich jedoch nicht in der Übersetzungsaufgabe wider, insbesondere bei Modellen mit moderater Größe (d. h. 7B oder 13B Parametern), die nach wie vor hinter herkömmlichen überwachten Encoder-Decoder-Übersetzungsmodellen zurückbleiben. Frühere Studien haben versucht, die Übersetzungsfähigkeiten dieser moderaten LLMs zu verbessern, aber die erzielten Gewinne waren begrenzt. In dieser Studie schlagen wir einen neuartigen Fine-Tuning-Ansatz für LLMs vor, der speziell für die Übersetzungsaufgabe entwickelt wurde und den Bedarf an umfangreichen parallelen Daten, auf die traditionelle Übersetzungsmodelle üblicherweise angewiesen sind, eliminiert. Unser Ansatz besteht aus zwei Fine-Tuning-Stufen: anfängliches Fine-Tuning auf monolingualen Daten, gefolgt von nachfolgendem Fine-Tuning auf einer kleinen Menge hochwertiger paralleler Daten. Wir stellen das durch diese Strategie entwickelte LLM als Advanced Language Model-based trAnslator (ALMA) vor. Basierend auf LLaMA-2 als unserem zugrunde liegenden Modell zeigen unsere Ergebnisse, dass das Modell eine durchschnittliche Verbesserung von mehr als 12 BLEU und 12 COMET gegenüber seiner Zero-Shot-Leistung über 10 Übersetzungsrichtungen aus den Testdatensätzen von WMT'21 (2 Richtungen) und WMT'22 (8 Richtungen) erzielen kann. Die Leistung ist deutlich besser als alle bisherigen Arbeiten und sogar überlegen gegenüber dem NLLB-54B-Modell und GPT-3.5-text-davinci-003, obwohl es nur 7B oder 13B Parameter hat. Diese Methode legt den Grundstein für ein neuartiges Trainingsparadigma in der maschinellen Übersetzung.

English

Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which still lag behind conventional supervised encoder-decoder translation models. Previous studies have attempted to improve the translation capabilities of these moderate LLMs, but their gains have been limited. In this study, we propose a novel fine-tuning approach for LLMs that is specifically designed for the translation task, eliminating the need for the abundant parallel data that traditional translation models usually depend on. Our approach consists of two fine-tuning stages: initial fine-tuning on monolingual data followed by subsequent fine-tuning on a small set of high-quality parallel data. We introduce the LLM developed through this strategy as Advanced Language Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our results show that the model can achieve an average improvement of more than 12 BLEU and 12 COMET over its zero-shot performance across 10 translation directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test datasets. The performance is significantly better than all prior work and even superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or 13B parameters. This method establishes the foundation for a novel training paradigm in machine translation.

Ein Paradigmenwechsel in der maschinellen Übersetzung: Steigerung der Übersetzungsleistung großer Sprachmodelle

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

papers.abstract

Support