ChatPaper.aiChatPaper

Más allá de los modelos solo-decodificador: Los modelos de lenguaje grandes pueden ser buenos codificadores para la traducción automática

Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

March 9, 2025
Autores: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI

Resumen

El campo de la traducción automática neuronal (NMT, por sus siglas en inglés) ha evolucionado con la llegada de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Gran parte del enfoque reciente en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) se ha centrado en modelar la traducción automática y muchos otros problemas utilizando un único decodificador Transformer preentrenado, mientras que las arquitecturas codificador-decodificador, que eran estándar en los modelos NMT anteriores, han recibido relativamente menos atención. En este artículo, exploramos modelos de traducción que son universales, eficientes y fáciles de optimizar, combinando el mundo de los LLMs con el mundo de la NMT. Aplicamos los LLMs a la codificación de la NMT y dejamos el decodificador de la NMT sin cambios. También desarrollamos métodos para adaptar los LLMs para que funcionen mejor con el decodificador de la NMT. Además, construimos un nuevo conjunto de datos que incluye múltiples tareas para evaluar cómo el sistema de traducción automática generaliza en diversas tareas. Las evaluaciones en los conjuntos de datos WMT y los nuestros muestran que los resultados utilizando nuestro método igualan o superan una variedad de líneas base en términos de calidad de traducción, pero logran aceleraciones en la inferencia de 2.4 a 6.5 veces y una reducción del 75% en la huella de memoria de la caché KV. También demuestra una fuerte generalización en una variedad de tareas relacionadas con la traducción.
English
The field of neural machine translation (NMT) has changed with the advent of large language models (LLMs). Much of the recent emphasis in natural language processing (NLP) has been on modeling machine translation and many other problems using a single pre-trained Transformer decoder, while encoder-decoder architectures, which were the standard in earlier NMT models, have received relatively less attention. In this paper, we explore translation models that are universal, efficient, and easy to optimize, by marrying the world of LLMs with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder unchanged. We also develop methods for adapting LLMs to work better with the NMT decoder. Furthermore, we construct a new dataset involving multiple tasks to assess how well the machine translation system generalizes across various tasks. Evaluations on the WMT and our datasets show that results using our method match or surpass a range of baselines in terms of translation quality, but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in the memory footprint of the KV cache. It also demonstrates strong generalization across a variety of translation-related tasks.

Summary

AI-Generated Summary

PDF52March 12, 2025