Контрастная оптимизация предпочтений: Расширение границ производительности крупных языковых моделей в машинном переводе
Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
January 16, 2024
Авторы: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI
Аннотация
Модели языковых моделей среднего размера (LLM) — с 7 или 13 миллиардами параметров — демонстрируют многообещающие результаты в задаче машинного перевода (MT). Однако даже лучшие модели перевода на основе 13B LLM, такие как ALMA, не достигают уровня современных традиционных моделей перевода с архитектурой "кодировщик-декодировщик" или более крупных LLM, таких как GPT-4. В данном исследовании мы устраняем этот разрыв в производительности. Сначала мы оцениваем недостатки контролируемого тонкого настройки (SFT) для LLM в задаче MT, подчеркивая проблемы качества, присутствующие в эталонных данных, несмотря на их человеческое происхождение. Затем, в отличие от SFT, который имитирует эталонные переводы, мы представляем новый подход — Оптимизацию контрастных предпочтений (Contrastive Preference Optimization, CPO), который обучает модели избегать генерации адекватных, но не идеальных переводов. Применение CPO к моделям ALMA с использованием всего 22 тысяч параллельных предложений и 12 миллионов параметров приводит к значительным улучшениям. Полученная модель, названная ALMA-R, может соответствовать или превосходить результаты победителей конкурса WMT и GPT-4 на тестовых наборах данных WMT'21, WMT'22 и WMT'23.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B
parameters -- exhibit promising machine translation (MT) performance. However,
even the top-performing 13B LLM-based translation models, like ALMA, does not
match the performance of state-of-the-art conventional encoder-decoder
translation models or larger-scale LLMs such as GPT-4. In this study, we bridge
this performance gap. We first assess the shortcomings of supervised
fine-tuning for LLMs in the MT task, emphasizing the quality issues present in
the reference data, despite being human-generated. Then, in contrast to SFT
which mimics reference translations, we introduce Contrastive Preference
Optimization (CPO), a novel approach that trains models to avoid generating
adequate but not perfect translations. Applying CPO to ALMA models with only
22K parallel sentences and 12M parameters yields significant improvements. The
resulting model, called ALMA-R, can match or exceed the performance of the WMT
competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.