Perdus dans le littéralisme : Comment l'apprentissage supervisé façonne le traductais dans les grands modèles de langage

Résumé

Les grands modèles de langage (LLMs) ont obtenu un succès remarquable en traduction automatique, démontrant des performances impressionnantes à travers diverses langues. Cependant, le "translationese", caractérisé par des traductions trop littérales et non naturelles, reste un défi persistant dans les systèmes de traduction basés sur les LLMs. Malgré leur pré-entraînement sur de vastes corpus d'énoncés naturels, les LLMs présentent des erreurs de translationese et génèrent des traductions inattendues et non naturelles, résultant de biais introduits lors du fine-tuning supervisé (SFT). Dans ce travail, nous évaluons systématiquement la prévalence du translationese dans les traductions générées par les LLMs et étudions ses origines pendant l'entraînement supervisé. Nous introduisons des méthodes pour atténuer ces biais, incluant le polissage des références dorées et le filtrage des instances d'entraînement non naturelles. Les évaluations empiriques démontrent que ces approches réduisent significativement le translationese tout en améliorant la naturalité des traductions, validées par des évaluations humaines et des métriques automatiques. Nos résultats soulignent la nécessité d'ajustements conscients de l'entraînement pour optimiser les sorties de traduction des LLMs, ouvrant la voie à des traductions plus fluides et cohérentes avec la langue cible. Nous publions les données et le code à l'adresse https://github.com/yafuly/LLM_Translationese.

English

Large language models (LLMs) have achieved remarkable success in machine translation, demonstrating impressive performance across diverse languages. However, translationese, characterized by overly literal and unnatural translations, remains a persistent challenge in LLM-based translation systems. Despite their pre-training on vast corpora of natural utterances, LLMs exhibit translationese errors and generate unexpected unnatural translations, stemming from biases introduced during supervised fine-tuning (SFT). In this work, we systematically evaluate the prevalence of translationese in LLM-generated translations and investigate its roots during supervised training. We introduce methods to mitigate these biases, including polishing golden references and filtering unnatural training instances. Empirical evaluations demonstrate that these approaches significantly reduce translationese while improving translation naturalness, validated by human evaluations and automatic metrics. Our findings highlight the need for training-aware adjustments to optimize LLM translation outputs, paving the way for more fluent and target-language-consistent translations. We release the data and code at https://github.com/yafuly/LLM_Translationese.

Perdus dans le littéralisme : Comment l'apprentissage supervisé façonne le traductais dans les grands modèles de langage

Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Résumé

Support