ChatPaper.aiChatPaper

Contrastief Voorkeursoptimalisatie: De Grenzen Verleggen van LLM-prestaties in Machinaal Vertalen

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

January 16, 2024
Auteurs: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI

Samenvatting

Middelgrote grote taalmodellen (LLM's) -- die met 7B of 13B parameters -- vertonen veelbelovende prestaties op het gebied van machinaal vertalen (MT). Echter, zelfs de best presterende 13B LLM-gebaseerde vertaalmodellen, zoals ALMA, halen niet het niveau van state-of-the-art conventionele encoder-decoder vertaalmodellen of grootschalige LLM's zoals GPT-4. In deze studie overbruggen we dit prestatieverschil. We beoordelen eerst de tekortkomingen van supervised fine-tuning voor LLM's in de MT-taak, waarbij we de kwaliteitsproblemen in de referentiedata benadrukken, ondanks dat deze door mensen zijn gegenereerd. Vervolgens introduceren we, in tegenstelling tot SFT dat referentievertalingen nabootst, Contrastive Preference Optimization (CPO), een nieuwe aanpak die modellen traint om adequate maar niet perfecte vertalingen te vermijden. Door CPO toe te passen op ALMA-modellen met slechts 22K parallelle zinnen en 12M parameters, worden aanzienlijke verbeteringen behaald. Het resulterende model, genaamd ALMA-R, kan de prestaties van de winnaars van de WMT-competitie en GPT-4 evenaren of overtreffen op de WMT'21, WMT'22 en WMT'23 testdatasets.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.
PDF363December 15, 2024