Un Cambio di Paradigma nella Traduzione Automatica: Potenziamento delle Prestazioni di Traduzione nei Modelli Linguistici di Grande Scala

Abstract

I modelli linguistici generativi di grandi dimensioni (LLM) hanno raggiunto progressi significativi in vari compiti di NLP. Tuttavia, questi progressi non si sono riflessi nel compito di traduzione, specialmente per modelli di dimensioni moderate (ad esempio, 7B o 13B parametri), che rimangono ancora indietro rispetto ai tradizionali modelli di traduzione supervisionati encoder-decoder. Studi precedenti hanno tentato di migliorare le capacità di traduzione di questi LLM moderati, ma i guadagni ottenuti sono stati limitati. In questo studio, proponiamo un nuovo approccio di fine-tuning per LLM specificamente progettato per il compito di traduzione, eliminando la necessità dei dati paralleli abbondanti su cui si basano tradizionalmente i modelli di traduzione. Il nostro approccio consiste in due fasi di fine-tuning: un iniziale fine-tuning su dati monolingue seguito da un successivo fine-tuning su un piccolo insieme di dati paralleli di alta qualità. Introduciamo l'LLM sviluppato attraverso questa strategia come Advanced Language Model-based trAnslator (ALMA). Basandoci su LLaMA-2 come modello sottostante, i nostri risultati mostrano che il modello può ottenere un miglioramento medio di oltre 12 punti BLEU e 12 punti COMET rispetto alle sue prestazioni zero-shot su 10 direzioni di traduzione tratte dai dataset di test di WMT'21 (2 direzioni) e WMT'22 (8 direzioni). Le prestazioni sono significativamente migliori rispetto a tutti i lavori precedenti e persino superiori al modello NLLB-54B e a GPT-3.5-text-davinci-003, pur avendo solo 7B o 13B parametri. Questo metodo getta le basi per un nuovo paradigma di addestramento nella traduzione automatica.

English

Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which still lag behind conventional supervised encoder-decoder translation models. Previous studies have attempted to improve the translation capabilities of these moderate LLMs, but their gains have been limited. In this study, we propose a novel fine-tuning approach for LLMs that is specifically designed for the translation task, eliminating the need for the abundant parallel data that traditional translation models usually depend on. Our approach consists of two fine-tuning stages: initial fine-tuning on monolingual data followed by subsequent fine-tuning on a small set of high-quality parallel data. We introduce the LLM developed through this strategy as Advanced Language Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our results show that the model can achieve an average improvement of more than 12 BLEU and 12 COMET over its zero-shot performance across 10 translation directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test datasets. The performance is significantly better than all prior work and even superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or 13B parameters. This method establishes the foundation for a novel training paradigm in machine translation.

Un Cambio di Paradigma nella Traduzione Automatica: Potenziamento delle Prestazioni di Traduzione nei Modelli Linguistici di Grande Scala

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

Abstract

Support