Voorbij alleen-decoders: Grote Taalmodellen kunnen goede encoders zijn voor Machinaal Vertalen
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation
March 9, 2025
Auteurs: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI
Samenvatting
Het vakgebied van neurale machinaalvertaling (NMT) is veranderd met de opkomst van grote taalmodelen (LLMs). Veel van de recente aandacht in natuurlijke taalverwerking (NLP) is uitgegaan naar het modelleren van machinaalvertaling en vele andere problemen met behulp van een enkele vooraf getrainde Transformer-decoder, terwijl encoder-decoder-architecturen, die eerder de standaard waren in NMT-modellen, relatief minder aandacht hebben gekregen. In dit artikel onderzoeken we vertaalmodellen die universeel, efficiënt en eenvoudig te optimaliseren zijn, door de wereld van LLMs te combineren met de wereld van NMT. We passen LLMs toe op NMT-codering en laten de NMT-decoder ongewijzigd. We ontwikkelen ook methoden om LLMs beter te laten samenwerken met de NMT-decoder. Bovendien construeren we een nieuwe dataset met meerdere taken om te beoordelen hoe goed het machinaalvertalingssysteem generaliseert over verschillende taken. Evaluaties op de WMT en onze datasets laten zien dat resultaten met onze methode gelijk zijn aan of een reeks baselines overtreffen wat betreft vertaalkwaliteit, maar ze bereiken een versnelling van de inferentiesnelheid met een factor 2,4 tot 6,5 en een reductie van 75% in het geheugengebruik van de KV-cache. Het toont ook sterke generalisatie over een verscheidenheid aan vertaalgerelateerde taken.
English
The field of neural machine translation (NMT) has changed with the advent of
large language models (LLMs). Much of the recent emphasis in natural language
processing (NLP) has been on modeling machine translation and many other
problems using a single pre-trained Transformer decoder, while encoder-decoder
architectures, which were the standard in earlier NMT models, have received
relatively less attention. In this paper, we explore translation models that
are universal, efficient, and easy to optimize, by marrying the world of LLMs
with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder
unchanged. We also develop methods for adapting LLMs to work better with the
NMT decoder. Furthermore, we construct a new dataset involving multiple tasks
to assess how well the machine translation system generalizes across various
tasks. Evaluations on the WMT and our datasets show that results using our
method match or surpass a range of baselines in terms of translation quality,
but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in
the memory footprint of the KV cache. It also demonstrates strong
generalization across a variety of translation-related tasks.Summary
AI-Generated Summary