Uma Mudança de Paradigma na Tradução Automática: Impulsionando o Desempenho de Tradução de Modelos de Linguagem de Grande Escala
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models
September 20, 2023
Autores: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI
Resumo
Modelos de Linguagem Generativos de Grande Escala (LLMs) têm alcançado avanços notáveis em diversas tarefas de PLN. No entanto, esses progressos não se refletiram na tarefa de tradução, especialmente em modelos de tamanho moderado (ou seja, com 7B ou 13B parâmetros), que ainda ficam aquém dos modelos de tradução supervisionados convencionais baseados em codificador-decodificador. Estudos anteriores tentaram melhorar as capacidades de tradução desses LLMs moderados, mas os ganhos foram limitados. Neste estudo, propomos uma nova abordagem de ajuste fino para LLMs especificamente projetada para a tarefa de tradução, eliminando a necessidade dos abundantes dados paralelos dos quais os modelos de tradução tradicionais geralmente dependem. Nossa abordagem consiste em dois estágios de ajuste fino: ajuste inicial em dados monolíngues seguido de ajuste subsequente em um pequeno conjunto de dados paralelos de alta qualidade. Apresentamos o LLM desenvolvido por meio dessa estratégia como Advanced Language Model-based trAnslator (ALMA). Com base no LLaMA-2 como modelo subjacente, nossos resultados mostram que o modelo pode alcançar uma melhoria média de mais de 12 BLEU e 12 COMET em relação ao seu desempenho zero-shot em 10 direções de tradução dos conjuntos de teste do WMT'21 (2 direções) e WMT'22 (8 direções). O desempenho é significativamente melhor do que todos os trabalhos anteriores e até superior ao modelo NLLB-54B e ao GPT-3.5-text-davinci-003, com apenas 7B ou 13B parâmetros. Este método estabelece as bases para um novo paradigma de treinamento em tradução automática.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements
in various NLP tasks. However, these advances have not been reflected in the
translation task, especially those with moderate model sizes (i.e., 7B or 13B
parameters), which still lag behind conventional supervised encoder-decoder
translation models. Previous studies have attempted to improve the translation
capabilities of these moderate LLMs, but their gains have been limited. In this
study, we propose a novel fine-tuning approach for LLMs that is specifically
designed for the translation task, eliminating the need for the abundant
parallel data that traditional translation models usually depend on. Our
approach consists of two fine-tuning stages: initial fine-tuning on monolingual
data followed by subsequent fine-tuning on a small set of high-quality parallel
data. We introduce the LLM developed through this strategy as Advanced Language
Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our
results show that the model can achieve an average improvement of more than 12
BLEU and 12 COMET over its zero-shot performance across 10 translation
directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test
datasets. The performance is significantly better than all prior work and even
superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or
13B parameters. This method establishes the foundation for a novel training
paradigm in machine translation.