ChatPaper.aiChatPaper

За пределами декодеров: крупные языковые модели могут быть эффективными энкодерами для машинного перевода

Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

March 9, 2025
Авторы: Yingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
cs.AI

Аннотация

Сфера нейронного машинного перевода (NMT) претерпела изменения с появлением крупных языковых моделей (LLM). В последнее время в обработке естественного языка (NLP) основное внимание уделялось моделированию машинного перевода и многих других задач с использованием единого предварительно обученного декодера на основе архитектуры Transformer, в то время как архитектуры "кодировщик-декодировщик", которые были стандартом в более ранних моделях NMT, получали относительно меньше внимания. В данной статье мы исследуем модели перевода, которые являются универсальными, эффективными и легко оптимизируемыми, объединяя мир LLM с миром NMT. Мы применяем LLM для кодирования в NMT, оставляя декодер NMT неизменным. Также мы разрабатываем методы адаптации LLM для более эффективной работы с декодером NMT. Кроме того, мы создаем новый набор данных, включающий множество задач, чтобы оценить, насколько хорошо система машинного перевода обобщает знания для различных задач. Оценки на данных WMT и наших собственных наборах показывают, что результаты, полученные с использованием нашего метода, соответствуют или превосходят ряд базовых подходов по качеству перевода, но при этом достигают ускорения вывода в 2,4–6,5 раз и сокращают объем памяти, занимаемой кэшем ключей и значений (KV cache), на 75%. Также демонстрируется сильная способность к обобщению для различных задач, связанных с переводом.
English
The field of neural machine translation (NMT) has changed with the advent of large language models (LLMs). Much of the recent emphasis in natural language processing (NLP) has been on modeling machine translation and many other problems using a single pre-trained Transformer decoder, while encoder-decoder architectures, which were the standard in earlier NMT models, have received relatively less attention. In this paper, we explore translation models that are universal, efficient, and easy to optimize, by marrying the world of LLMs with the world of NMT. We apply LLMs to NMT encoding and leave the NMT decoder unchanged. We also develop methods for adapting LLMs to work better with the NMT decoder. Furthermore, we construct a new dataset involving multiple tasks to assess how well the machine translation system generalizes across various tasks. Evaluations on the WMT and our datasets show that results using our method match or surpass a range of baselines in terms of translation quality, but achieve 2.4 sim 6.5 times inference speedups and a 75% reduction in the memory footprint of the KV cache. It also demonstrates strong generalization across a variety of translation-related tasks.

Summary

AI-Generated Summary

PDF52March 12, 2025