ChatPaper.aiChatPaper

Смена парадигмы в машинном переводе: повышение качества перевода в крупных языковых моделях

A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models

September 20, 2023
Авторы: Haoran Xu, Young Jin Kim, Amr Sharaf, Hany Hassan Awadalla
cs.AI

Аннотация

Генеративные большие языковые модели (LLM) достигли значительных успехов в различных задачах обработки естественного языка (NLP). Однако эти достижения не нашли отражения в задаче перевода, особенно для моделей умеренного размера (например, с 7B или 13B параметрами), которые по-прежнему отстают от традиционных моделей перевода с контролируемым кодировщиком-декодировщиком. Предыдущие исследования пытались улучшить способности таких моделей к переводу, но их успехи были ограниченными. В данной работе мы предлагаем новый подход к тонкой настройке LLM, специально разработанный для задачи перевода, который устраняет необходимость в большом объеме параллельных данных, обычно используемых традиционными моделями перевода. Наш подход включает два этапа тонкой настройки: начальную настройку на монолингвальных данных с последующей настройкой на небольшом наборе высококачественных параллельных данных. Мы представляем LLM, разработанную с использованием этой стратегии, как Advanced Language Model-based trAnslator (ALMA). На основе модели LLaMA-2 наши результаты показывают, что модель может достичь среднего улучшения более чем на 12 BLEU и 12 COMET по сравнению с её нулевым сценарием (zero-shot) в 10 направлениях перевода на тестовых наборах данных WMT'21 (2 направления) и WMT'22 (8 направлений). Производительность значительно превосходит все предыдущие работы и даже превосходит модель NLLB-54B и GPT-3.5-text-davinci-003, имея всего 7B или 13B параметров. Этот метод закладывает основу для новой парадигмы обучения в машинном переводе.
English
Generative Large Language Models (LLMs) have achieved remarkable advancements in various NLP tasks. However, these advances have not been reflected in the translation task, especially those with moderate model sizes (i.e., 7B or 13B parameters), which still lag behind conventional supervised encoder-decoder translation models. Previous studies have attempted to improve the translation capabilities of these moderate LLMs, but their gains have been limited. In this study, we propose a novel fine-tuning approach for LLMs that is specifically designed for the translation task, eliminating the need for the abundant parallel data that traditional translation models usually depend on. Our approach consists of two fine-tuning stages: initial fine-tuning on monolingual data followed by subsequent fine-tuning on a small set of high-quality parallel data. We introduce the LLM developed through this strategy as Advanced Language Model-based trAnslator (ALMA). Based on LLaMA-2 as our underlying model, our results show that the model can achieve an average improvement of more than 12 BLEU and 12 COMET over its zero-shot performance across 10 translation directions from the WMT'21 (2 directions) and WMT'22 (8 directions) test datasets. The performance is significantly better than all prior work and even superior to the NLLB-54B model and GPT-3.5-text-davinci-003, with only 7B or 13B parameters. This method establishes the foundation for a novel training paradigm in machine translation.
PDF323December 15, 2024