ChatPaper.aiChatPaper

Kontrastive Präferenzoptimierung: Die Grenzen der LLM-Leistung in der maschinellen Übersetzung erweitern

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

January 16, 2024
Autoren: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI

Zusammenfassung

Mittelgroße Large Language Models (LLMs) – solche mit 7B oder 13B Parametern – zeigen vielversprechende Leistungen in der maschinellen Übersetzung (MT). Allerdings erreichen selbst die leistungsstärksten 13B LLM-basierten Übersetzungsmodelle wie ALMA nicht die Leistung von state-of-the-art konventionellen Encoder-Decoder-Übersetzungsmodellen oder größeren LLMs wie GPT-4. In dieser Studie schließen wir diese Leistungslücke. Zunächst bewerten wir die Schwächen des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) für LLMs in der MT-Aufgabe und betonen dabei die Qualitätsprobleme in den Referenzdaten, obwohl diese von Menschen erstellt wurden. Im Gegensatz zu SFT, das Referenzübersetzungen nachahmt, führen wir Contrastive Preference Optimization (CPO) ein, einen neuartigen Ansatz, der Modelle darauf trainiert, ausreichende, aber nicht perfekte Übersetzungen zu vermeiden. Die Anwendung von CPO auf ALMA-Modelle mit nur 22.000 parallelen Sätzen und 12M Parametern führt zu erheblichen Verbesserungen. Das resultierende Modell, genannt ALMA-R, kann die Leistung der Gewinner des WMT-Wettbewerbs und von GPT-4 auf den Testdatensätzen von WMT'21, WMT'22 und WMT'23 erreichen oder übertreffen.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.
PDF373December 15, 2024