Ottimizzazione Contrastiva delle Preferenze: Spingere i Confini delle Prestazioni dei Modelli Linguistici nel Machine Translation
Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
January 16, 2024
Autori: Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
cs.AI
Abstract
I modelli linguistici di medie dimensioni (LLM) - quelli con 7B o 13B parametri - mostrano prestazioni promettenti nella traduzione automatica (MT). Tuttavia, anche i migliori modelli di traduzione basati su LLM da 13B, come ALMA, non raggiungono le prestazioni dei modelli di traduzione encoder-decoder all'avanguardia o dei LLM su larga scala come GPT-4. In questo studio, colmiamo questo divario di prestazioni. Iniziamo valutando le carenze del fine-tuning supervisionato per i LLM nel compito di MT, evidenziando i problemi di qualità presenti nei dati di riferimento, nonostante siano generati da esseri umani. Poi, in contrasto con il SFT che imita le traduzioni di riferimento, introduciamo l'ottimizzazione delle preferenze contrastive (CPO), un approccio innovativo che addestra i modelli a evitare di generare traduzioni adeguate ma non perfette. Applicando il CPO ai modelli ALMA con solo 22K frasi parallele e 12M parametri, si ottengono miglioramenti significativi. Il modello risultante, chiamato ALMA-R, può eguagliare o superare le prestazioni dei vincitori della competizione WMT e di GPT-4 sui dataset di test WMT'21, WMT'22 e WMT'23.
English
Moderate-sized large language models (LLMs) -- those with 7B or 13B
parameters -- exhibit promising machine translation (MT) performance. However,
even the top-performing 13B LLM-based translation models, like ALMA, does not
match the performance of state-of-the-art conventional encoder-decoder
translation models or larger-scale LLMs such as GPT-4. In this study, we bridge
this performance gap. We first assess the shortcomings of supervised
fine-tuning for LLMs in the MT task, emphasizing the quality issues present in
the reference data, despite being human-generated. Then, in contrast to SFT
which mimics reference translations, we introduce Contrastive Preference
Optimization (CPO), a novel approach that trains models to avoid generating
adequate but not perfect translations. Applying CPO to ALMA models with only
22K parallel sentences and 12M parameters yields significant improvements. The
resulting model, called ALMA-R, can match or exceed the performance of the WMT
competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.