ChatPaper.aiChatPaper

Optimización de Preferencias Contrastivas: Llevando al Límite el Rendimiento de los Modelos de Lenguaje en Traducción Automática

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

January 16, 2024
Autores: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) de tamaño moderado —aquellos con 7B o 13B parámetros— muestran un rendimiento prometedor en traducción automática (MT). Sin embargo, incluso los mejores modelos de traducción basados en LLM de 13B, como ALMA, no igualan el rendimiento de los modelos de traducción convencionales de última generación basados en arquitecturas codificador-decodificador o de LLM a mayor escala, como GPT-4. En este estudio, cerramos esta brecha de rendimiento. Primero evaluamos las limitaciones del ajuste fino supervisado (SFT) para LLM en la tarea de MT, destacando los problemas de calidad presentes en los datos de referencia, a pesar de ser generados por humanos. Luego, en contraste con el SFT que imita las traducciones de referencia, introducimos la Optimización de Preferencias Contrastivas (CPO), un enfoque novedoso que entrena a los modelos para evitar generar traducciones adecuadas pero no perfectas. Al aplicar CPO a los modelos ALMA con solo 22K oraciones paralelas y 12M parámetros, se obtienen mejoras significativas. El modelo resultante, llamado ALMA-R, puede igualar o superar el rendimiento de los ganadores de la competencia WMT y de GPT-4 en los conjuntos de prueba de WMT'21, WMT'22 y WMT'23.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.
PDF373December 15, 2024