ChatPaper.aiChatPaper

Een Paradigmaverschuiving in Machinaal Vertalen: Het Verbeteren van Vertaalprestaties van Grote Taalmodellen

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

September 20, 2023
Auteurs: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI

Samenvatting

Generatieve grote taalmodelen (LLMs) hebben opmerkelijke vooruitgang geboekt in diverse NLP-taken. Deze vooruitgang is echter niet terug te zien in de vertaaltaak, met name bij modellen van gemiddelde grootte (d.w.z. 7B of 13B parameters), die nog steeds achterblijven bij conventionele supervised encoder-decoder vertaalmodellen. Eerdere studies hebben geprobeerd de vertaalcapaciteiten van deze middelgrote LLMs te verbeteren, maar de behaalde winst was beperkt. In deze studie stellen we een nieuwe fine-tuning aanpak voor LLMs voor die specifiek is ontworpen voor de vertaaltaak, waardoor de noodzaak van overvloedige parallelle data, waar traditionele vertaalmodellen meestal op vertrouwen, wordt geëlimineerd. Onze aanpak bestaat uit twee fine-tuning fasen: initiële fine-tuning op monolinguale data gevolgd door verdere fine-tuning op een kleine set van hoogwaardige parallelle data. We introduceren het LLM dat via deze strategie is ontwikkeld als Advanced Language Model-based trAnslator (ALMA). Gebaseerd op LLaMA-2 als ons onderliggende model, laten onze resultaten zien dat het model een gemiddelde verbetering van meer dan 12 BLEU en 12 COMET kan bereiken ten opzichte van zijn zero-shot prestaties over 10 vertaalrichtingen van de WMT'21 (2 richtingen) en WMT'22 (8 richtingen) testdatasets. De prestaties zijn aanzienlijk beter dan alle eerdere werken en zelfs superieur aan het NLLB-54B model en GPT-3.5-text-davinci-003, met slechts 7B of 13B parameters. Deze methode legt de basis voor een nieuw trainingsparadigma in machinaal vertalen.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which still lag behind conventional supervised encoder-decoder translation models. Previous studies have attempted to improve the translation capabilities of these moderate LLMs, but their gains have been limited. In this study, we propose a novel fine-tuning approach for LLMs that is specifically designed for the translation task, eliminating the need for the abundant parallel data that traditional translation models usually depend on. Our approach consists of two fine-tuning stages: initial fine-tuning on monolingual data followed by subsequent fine-tuning on a small set of high-quality parallel data. We introduce the LLM developed through this strategy as Advanced Language Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our results show that the model can achieve an average improvement of more than 12 BLEU and 12 COMET over its zero-shot performance across 10 translation directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test datasets. The performance is significantly better than all prior work and even superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or 13B parameters. This method establishes the foundation for a novel training paradigm in machine translation.
PDF323December 15, 2024