Otimização de Preferência Contrastiva: Expandindo os Limites do Desempenho de LLMs na Tradução Automática
Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
January 16, 2024
Autores: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI
Resumo
Modelos de linguagem de grande porte (LLMs) de tamanho moderado — aqueles com 7B ou 13B parâmetros — apresentam desempenho promissor em tradução automática (MT). No entanto, mesmo os modelos de tradução baseados em LLMs de 13B com melhor desempenho, como o ALMA, não alcançam o desempenho dos modelos convencionais de tradução codificador-decodificador de última geração ou de LLMs em maior escala, como o GPT-4. Neste estudo, reduzimos essa lacuna de desempenho. Primeiro, avaliamos as deficiências do ajuste fino supervisionado (SFT) para LLMs na tarefa de MT, destacando os problemas de qualidade presentes nos dados de referência, apesar de serem gerados por humanos. Em seguida, em contraste com o SFT, que imita traduções de referência, introduzimos a Otimização de Preferência Contrastiva (CPO), uma abordagem inovadora que treina modelos para evitar a geração de traduções adequadas, mas não perfeitas. A aplicação do CPO aos modelos ALMA com apenas 22 mil frases paralelas e 12 milhões de parâmetros resulta em melhorias significativas. O modelo resultante, chamado ALMA-R, consegue igualar ou superar o desempenho dos vencedores da competição WMT e do GPT-4 nos conjuntos de dados de teste do WMT'21, WMT'22 e WMT'23.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B
parameters -- exhibit promising machine translation (MT) performance. However,
even the top-performing 13B LLM-based translation models, like ALMA, does not
match the performance of state-of-the-art conventional encoder-decoder
translation models or larger-scale LLMs such as GPT-4. In this study, we bridge
this performance gap. We first assess the shortcomings of supervised
fine-tuning for LLMs in the MT task, emphasizing the quality issues present in
the reference data, despite being human-generated. Then, in contrast to SFT
which mimics reference translations, we introduce Contrastive Preference
Optimization (CPO), a novel approach that trains models to avoid generating
adequate but not perfect translations. Applying CPO to ALMA models with only
22K parallel sentences and 12M parameters yields significant improvements. The
resulting model, called ALMA-R, can match or exceed the performance of the WMT
competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.