Produceren GPT's minder letterlijke vertalingen?

Samenvatting

Grote Taalmodellen (LLMs) zoals GPT-3 zijn naar voren gekomen als algemene taalmodelen die in staat zijn om veel taken op het gebied van natuurlijke taalgeneratie of -begrip aan te pakken. Op het gebied van Machinaal Vertalen (MT) hebben meerdere onderzoeken few-shot prompting-mechanismen onderzocht om betere vertalingen uit LLMs te verkrijgen. Er is echter relatief weinig onderzoek gedaan naar hoe dergelijke vertalingen kwalitatief verschillen van de vertalingen die worden gegenereerd door standaard Neurale Machinaal Vertalen (NMT) modellen. In dit werk onderzoeken we deze verschillen in termen van de letterlijkheid van vertalingen die door de twee systemen worden geproduceerd. Met behulp van letterlijkheidsmaten die woorduitlijning en monotoniciteit omvatten, vinden we dat vertalingen uit het Engels (E-X) van GPTs over het algemeen minder letterlijk zijn, terwijl ze vergelijkbare of betere scores behalen op MT-kwaliteitsmetrieken. We tonen aan dat deze bevinding ook wordt bevestigd in menselijke evaluaties. Vervolgens laten we zien dat deze verschillen vooral duidelijk zijn bij het vertalen van zinnen die idiomatische uitdrukkingen bevatten.

English

Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose language models capable of addressing many natural language generation or understanding tasks. On the task of Machine Translation (MT), multiple works have investigated few-shot prompting mechanisms to elicit better translations from LLMs. However, there has been relatively little investigation on how such translations differ qualitatively from the translations generated by standard Neural Machine Translation (NMT) models. In this work, we investigate these differences in terms of the literalness of translations produced by the two systems. Using literalness measures involving word alignment and monotonicity, we find that translations out of English (E-X) from GPTs tend to be less literal, while exhibiting similar or better scores on MT quality metrics. We demonstrate that this finding is borne out in human evaluations as well. We then show that these differences are especially pronounced when translating sentences that contain idiomatic expressions.

Produceren GPT's minder letterlijke vertalingen?

Do GPTs Produce Less Literal Translations?

Samenvatting

Support