Além dos Modelos Apenas de Decodificação: Modelos de Linguagem de Grande Porte Podem Ser Bons Codificadores para Tradução Automática
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
March 9, 2025
Autores: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI
Resumo
O campo de tradução automática neural (NMT) mudou com o advento dos grandes modelos de linguagem (LLMs). Grande parte da ênfase recente no processamento de linguagem natural (NLP) tem sido na modelagem de tradução automática e muitos outros problemas usando um único decodificador Transformer pré-treinado, enquanto as arquiteturas codificador-decodificador, que eram o padrão nos modelos NMT anteriores, receberam relativamente menos atenção. Neste artigo, exploramos modelos de tradução que são universais, eficientes e fáceis de otimizar, unindo o mundo dos LLMs com o mundo do NMT. Aplicamos LLMs à codificação NMT e mantemos o decodificador NMT inalterado. Também desenvolvemos métodos para adaptar LLMs a funcionar melhor com o decodificador NMT. Além disso, construímos um novo conjunto de dados envolvendo múltiplas tarefas para avaliar o quão bem o sistema de tradução automática generaliza em várias tarefas. As avaliações nos conjuntos de dados WMT e nos nossos mostram que os resultados usando nosso método igualam ou superam uma variedade de baselines em termos de qualidade de tradução, mas alcançam acelerações de inferência de 2,4 a 6,5 vezes e uma redução de 75% na pegada de memória do cache KV. Ele também demonstra uma forte generalização em uma variedade de tarefas relacionadas à tradução.
English
The field of neural machine translation (NMT) has changed with the advent of
large language models (LLMs). Much of the recent emphasis in natural language
processing (NLP) has been on modeling machine translation and many other
problems using a single pre-trained Transformer decoder, while encoder-decoder
architectures, which were the standard in earlier NMT models, have received
relatively less attention. In this paper, we explore translation models that
are universal, efficient, and easy to optimize, by marrying the world of LLMs
with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder
unchanged. We also develop methods for adapting LLMs to work better with the
NMT decoder. Furthermore, we construct a new dataset involving multiple tasks
to assess how well the machine translation system generalizes across various
tasks. Evaluations on the WMT and our datasets show that results using our
method match or surpass a range of baselines in terms of translation quality,
but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in
the memory footprint of the KV cache. It also demonstrates strong
generalization across a variety of translation-related tasks.Summary
AI-Generated Summary