Les GPT produisent-ils des traductions moins littérales ?
Do GPTs Produce Less Literal Translations?
May 26, 2023
Auteurs: Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadallah
cs.AI
Résumé
Les grands modèles de langage (LLMs) tels que GPT-3 sont apparus comme des modèles de langage polyvalents capables de traiter de nombreuses tâches de génération ou de compréhension du langage naturel. Dans le domaine de la traduction automatique (MT), plusieurs travaux ont exploré des mécanismes d'incitation en few-shot pour obtenir de meilleures traductions à partir des LLMs. Cependant, il y a eu relativement peu d'investigations sur la manière dont ces traductions diffèrent qualitativement de celles générées par les modèles standards de traduction automatique neuronale (NMT). Dans ce travail, nous examinons ces différences en termes de littéralité des traductions produites par les deux systèmes. En utilisant des mesures de littéralité impliquant l'alignement de mots et la monotonie, nous constatons que les traductions de l'anglais vers d'autres langues (E-X) par les GPT ont tendance à être moins littérales, tout en affichant des scores similaires ou meilleurs sur les métriques de qualité de la traduction automatique. Nous démontrons que cette observation est également confirmée par des évaluations humaines. Nous montrons ensuite que ces différences sont particulièrement marquées lors de la traduction de phrases contenant des expressions idiomatiques.
English
Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose
language models capable of addressing many natural language generation or
understanding tasks. On the task of Machine Translation (MT), multiple works
have investigated few-shot prompting mechanisms to elicit better translations
from LLMs. However, there has been relatively little investigation on how such
translations differ qualitatively from the translations generated by standard
Neural Machine Translation (NMT) models. In this work, we investigate these
differences in terms of the literalness of translations produced by the two
systems. Using literalness measures involving word alignment and monotonicity,
we find that translations out of English (E-X) from GPTs tend to be less
literal, while exhibiting similar or better scores on MT quality metrics. We
demonstrate that this finding is borne out in human evaluations as well. We
then show that these differences are especially pronounced when translating
sentences that contain idiomatic expressions.