Создают ли GPT менее буквальные переводы?
Do GPTs Produce Less Literal Translations?
May 26, 2023
Авторы: Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadallah
cs.AI
Аннотация
Крупные языковые модели (LLM), такие как GPT-3, стали универсальными моделями, способными решать множество задач генерации или понимания естественного языка. В задаче машинного перевода (MT) несколько исследований изучали механизмы немногих примеров (few-shot prompting) для получения более качественных переводов с помощью LLM. Однако до сих пор сравнительно мало внимания уделялось тому, как такие переводы качественно отличаются от переводов, создаваемых стандартными моделями нейронного машинного перевода (NMT). В данной работе мы исследуем эти различия с точки зрения буквальности переводов, создаваемых двумя системами. Используя метрики буквальности, включающие выравнивание слов и монотонность, мы обнаруживаем, что переводы с английского языка (E-X), выполненные GPT, как правило, менее буквальны, при этом демонстрируя схожие или лучшие показатели по метрикам качества MT. Мы показываем, что этот вывод подтверждается и в человеческих оценках. Затем мы демонстрируем, что эти различия особенно заметны при переводе предложений, содержащих идиоматические выражения.
English
Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose
language models capable of addressing many natural language generation or
understanding tasks. On the task of Machine Translation (MT), multiple works
have investigated few-shot prompting mechanisms to elicit better translations
from LLMs. However, there has been relatively little investigation on how such
translations differ qualitatively from the translations generated by standard
Neural Machine Translation (NMT) models. In this work, we investigate these
differences in terms of the literalness of translations produced by the two
systems. Using literalness measures involving word alignment and monotonicity,
we find that translations out of English (E-X) from GPTs tend to be less
literal, while exhibiting similar or better scores on MT quality metrics. We
demonstrate that this finding is borne out in human evaluations as well. We
then show that these differences are especially pronounced when translating
sentences that contain idiomatic expressions.