Oltre i modelli solo decoder: i grandi modelli linguistici possono essere buoni encoder per la traduzione automatica
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
March 9, 2025
Autori: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI
Abstract
Il campo della traduzione automatica neurale (NMT) è cambiato con l'avvento dei grandi modelli linguistici (LLM). Gran parte dell'attenzione recente nell'elaborazione del linguaggio naturale (NLP) si è concentrata sulla modellazione della traduzione automatica e di molti altri problemi utilizzando un singolo decoder Transformer pre-addestrato, mentre le architetture encoder-decoder, che erano lo standard nei precedenti modelli NMT, hanno ricevuto relativamente meno attenzione. In questo articolo, esploriamo modelli di traduzione che siano universali, efficienti e facili da ottimizzare, unendo il mondo degli LLM con quello della NMT. Applichiamo gli LLM alla codifica NMT e lasciamo invariato il decoder NMT. Sviluppiamo inoltre metodi per adattare gli LLM a funzionare meglio con il decoder NMT. Inoltre, costruiamo un nuovo dataset che coinvolge più compiti per valutare quanto bene il sistema di traduzione automatica si generalizza su vari compiti. Le valutazioni sui dataset WMT e sui nostri dataset mostrano che i risultati ottenuti con il nostro metodo eguagliano o superano una gamma di baseline in termini di qualità della traduzione, ma raggiungono un'accelerazione dell'inferenza di 2,4 ∼ 6,5 volte e una riduzione del 75% dell'impronta di memoria della cache KV. Dimostra anche una forte generalizzazione su una varietà di compiti legati alla traduzione.
English
The field of neural machine translation (NMT) has changed with the advent of
large language models (LLMs). Much of the recent emphasis in natural language
processing (NLP) has been on modeling machine translation and many other
problems using a single pre-trained Transformer decoder, while encoder-decoder
architectures, which were the standard in earlier NMT models, have received
relatively less attention. In this paper, we explore translation models that
are universal, efficient, and easy to optimize, by marrying the world of LLMs
with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder
unchanged. We also develop methods for adapting LLMs to work better with the
NMT decoder. Furthermore, we construct a new dataset involving multiple tasks
to assess how well the machine translation system generalizes across various
tasks. Evaluations on the WMT and our datasets show that results using our
method match or surpass a range of baselines in terms of translation quality,
but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in
the memory footprint of the KV cache. It also demonstrates strong
generalization across a variety of translation-related tasks.Summary
AI-Generated Summary