Un Cambio di Paradigma nella Traduzione Automatica: Potenziamento delle Prestazioni di Traduzione nei Modelli Linguistici di Grande Scala
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models
September 20, 2023
Autori: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI
Abstract
I modelli linguistici generativi di grandi dimensioni (LLM) hanno raggiunto progressi significativi in vari compiti di NLP. Tuttavia, questi progressi non si sono riflessi nel compito di traduzione, specialmente per modelli di dimensioni moderate (ad esempio, 7B o 13B parametri), che rimangono ancora indietro rispetto ai tradizionali modelli di traduzione supervisionati encoder-decoder. Studi precedenti hanno tentato di migliorare le capacità di traduzione di questi LLM moderati, ma i guadagni ottenuti sono stati limitati. In questo studio, proponiamo un nuovo approccio di fine-tuning per LLM specificamente progettato per il compito di traduzione, eliminando la necessità dei dati paralleli abbondanti su cui si basano tradizionalmente i modelli di traduzione. Il nostro approccio consiste in due fasi di fine-tuning: un iniziale fine-tuning su dati monolingue seguito da un successivo fine-tuning su un piccolo insieme di dati paralleli di alta qualità. Introduciamo l'LLM sviluppato attraverso questa strategia come Advanced Language Model-based trAnslator (ALMA). Basandoci su LLaMA-2 come modello sottostante, i nostri risultati mostrano che il modello può ottenere un miglioramento medio di oltre 12 punti BLEU e 12 punti COMET rispetto alle sue prestazioni zero-shot su 10 direzioni di traduzione tratte dai dataset di test di WMT'21 (2 direzioni) e WMT'22 (8 direzioni). Le prestazioni sono significativamente migliori rispetto a tutti i lavori precedenti e persino superiori al modello NLLB-54B e a GPT-3.5-text-davinci-003, pur avendo solo 7B o 13B parametri. Questo metodo getta le basi per un nuovo paradigma di addestramento nella traduzione automatica.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements
in various NLP tasks. However, these advances have not been reflected in the
translation task, especially those with moderate model sizes (i.e., 7B or 13B
parameters), which still lag behind conventional supervised encoder-decoder
translation models. Previous studies have attempted to improve the translation
capabilities of these moderate LLMs, but their gains have been limited. In this
study, we propose a novel fine-tuning approach for LLMs that is specifically
designed for the translation task, eliminating the need for the abundant
parallel data that traditional translation models usually depend on. Our
approach consists of two fine-tuning stages: initial fine-tuning on monolingual
data followed by subsequent fine-tuning on a small set of high-quality parallel
data. We introduce the LLM developed through this strategy as Advanced Language
Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our
results show that the model can achieve an average improvement of more than 12
BLEU and 12 COMET over its zero-shot performance across 10 translation
directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test
datasets. The performance is significantly better than all prior work and even
superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or
13B parameters. This method establishes the foundation for a novel training
paradigm in machine translation.