Un cambio de paradigma en la traducción automática: Mejorando el rendimiento de traducción de los modelos de lenguaje de gran escala

Resumen

Los Modelos de Lenguaje Generativos de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables en diversas tareas de Procesamiento del Lenguaje Natural (NLP). Sin embargo, estos avances no se han reflejado en la tarea de traducción, especialmente en aquellos modelos de tamaño moderado (es decir, con 7B o 13B parámetros), que aún se quedan atrás en comparación con los modelos de traducción supervisados convencionales basados en arquitecturas codificador-decodificador. Estudios previos han intentado mejorar las capacidades de traducción de estos LLMs moderados, pero sus mejoras han sido limitadas. En este estudio, proponemos un novedoso enfoque de ajuste fino para LLMs específicamente diseñado para la tarea de traducción, eliminando la necesidad de los abundantes datos paralelos en los que tradicionalmente dependen los modelos de traducción. Nuestro enfoque consta de dos etapas de ajuste fino: un ajuste inicial sobre datos monolingües seguido de un ajuste posterior sobre un pequeño conjunto de datos paralelos de alta calidad. Introducimos el LLM desarrollado mediante esta estrategia como Advanced Language Model-based trAnslator (ALMA). Basándonos en LLaMA-2 como modelo subyacente, nuestros resultados muestran que el modelo puede lograr una mejora promedio de más de 12 puntos BLEU y 12 puntos COMET sobre su rendimiento en modo cero disparos (zero-shot) en 10 direcciones de traducción de los conjuntos de prueba de WMT'21 (2 direcciones) y WMT'22 (8 direcciones). El rendimiento es significativamente mejor que todos los trabajos previos e incluso superior al modelo NLLB-54B y a GPT-3.5-text-davinci-003, con solo 7B o 13B parámetros. Este método establece las bases para un nuevo paradigma de entrenamiento en traducción automática.

English

Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which still lag behind conventional supervised encoder-decoder translation models. Previous studies have attempted to improve the translation capabilities of these moderate LLMs, but their gains have been limited. In this study, we propose a novel fine-tuning approach for LLMs that is specifically designed for the translation task, eliminating the need for the abundant parallel data that traditional translation models usually depend on. Our approach consists of two fine-tuning stages: initial fine-tuning on monolingual data followed by subsequent fine-tuning on a small set of high-quality parallel data. We introduce the LLM developed through this strategy as Advanced Language Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our results show that the model can achieve an average improvement of more than 12 BLEU and 12 COMET over its zero-shot performance across 10 translation directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test datasets. The performance is significantly better than all prior work and even superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or 13B parameters. This method establishes the foundation for a novel training paradigm in machine translation.

Un cambio de paradigma en la traducción automática: Mejorando el rendimiento de traducción de los modelos de lenguaje de gran escala

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

Resumen

Support