Un cambio de paradigma en la traducción automática: Mejorando el rendimiento de traducción de los modelos de lenguaje de gran escala
A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models
September 20, 2023
Autores: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI
Resumen
Los Modelos de Lenguaje Generativos de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en diversas tareas de Procesamiento del Lenguaje Natural (NLP). Sin embargo, estos avances no se han reflejado en la tarea de traducción, especialmente en aquellos modelos de tamaño moderado (es decir, con 7B o 13B parámetros), que aún se quedan atrás en comparación con los modelos de traducción supervisados convencionales basados en arquitecturas codificador-decodificador. Estudios previos han intentado mejorar las capacidades de traducción de estos LLMs moderados, pero sus mejoras han sido limitadas. En este estudio, proponemos un novedoso enfoque de ajuste fino para LLMs específicamente diseñado para la tarea de traducción, eliminando la necesidad de los abundantes datos paralelos en los que tradicionalmente dependen los modelos de traducción. Nuestro enfoque consta de dos etapas de ajuste fino: un ajuste inicial sobre datos monolingües seguido de un ajuste posterior sobre un pequeño conjunto de datos paralelos de alta calidad. Introducimos el LLM desarrollado mediante esta estrategia como Advanced Language Model-based trAnslator (ALMA). Basándonos en LLaMA-2 como modelo subyacente, nuestros resultados muestran que el modelo puede lograr una mejora promedio de más de 12 puntos BLEU y 12 puntos COMET sobre su rendimiento en modo cero disparos (zero-shot) en 10 direcciones de traducción de los conjuntos de prueba de WMT'21 (2 direcciones) y WMT'22 (8 direcciones). El rendimiento es significativamente mejor que todos los trabajos previos e incluso superior al modelo NLLB-54B y a GPT-3.5-text-davinci-003, con solo 7B o 13B parámetros. Este método establece las bases para un nuevo paradigma de entrenamiento en traducción automática.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements
in various NLP tasks. However, these advances have not been reflected in the
translation task, especially those with moderate model sizes (i.e., 7B or 13B
parameters), which still lag behind conventional supervised encoder-decoder
translation models. Previous studies have attempted to improve the translation
capabilities of these moderate LLMs, but their gains have been limited. In this
study, we propose a novel fine-tuning approach for LLMs that is specifically
designed for the translation task, eliminating the need for the abundant
parallel data that traditional translation models usually depend on. Our
approach consists of two fine-tuning stages: initial fine-tuning on monolingual
data followed by subsequent fine-tuning on a small set of high-quality parallel
data. We introduce the LLM developed through this strategy as Advanced Language
Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our
results show that the model can achieve an average improvement of more than 12
BLEU and 12 COMET over its zero-shot performance across 10 translation
directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test
datasets. The performance is significantly better than all prior work and even
superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or
13B parameters. This method establishes the foundation for a novel training
paradigm in machine translation.