Perdidos en el literalismo: Cómo el entrenamiento supervisado moldea el "traduccionés" en los LLM

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en la traducción automática, demostrando un rendimiento impresionante en diversos idiomas. Sin embargo, el "translationese", caracterizado por traducciones excesivamente literales y poco naturales, sigue siendo un desafío persistente en los sistemas de traducción basados en LLMs. A pesar de su preentrenamiento en vastos corpus de expresiones naturales, los LLMs presentan errores de translationese y generan traducciones inesperadamente poco naturales, derivados de sesgos introducidos durante el ajuste fino supervisado (SFT). En este trabajo, evaluamos sistemáticamente la prevalencia del translationese en las traducciones generadas por LLMs e investigamos sus raíces durante el entrenamiento supervisado. Introducimos métodos para mitigar estos sesgos, incluyendo el pulido de referencias doradas y la filtración de instancias de entrenamiento poco naturales. Las evaluaciones empíricas demuestran que estos enfoques reducen significativamente el translationese mientras mejoran la naturalidad de las traducciones, validado tanto por evaluaciones humanas como por métricas automáticas. Nuestros hallazgos resaltan la necesidad de ajustes conscientes del entrenamiento para optimizar las salidas de traducción de los LLMs, allanando el camino para traducciones más fluidas y consistentes con el idioma objetivo. Publicamos los datos y el código en https://github.com/yafuly/LLM_Translationese.

English

Large language models (LLMs) have achieved remarkable success in machine translation, demonstrating impressive performance across diverse languages. However, translationese, characterized by overly literal and unnatural translations, remains a persistent challenge in LLM-based translation systems. Despite their pre-training on vast corpora of natural utterances, LLMs exhibit translationese errors and generate unexpected unnatural translations, stemming from biases introduced during supervised fine-tuning (SFT). In this work, we systematically evaluate the prevalence of translationese in LLM-generated translations and investigate its roots during supervised training. We introduce methods to mitigate these biases, including polishing golden references and filtering unnatural training instances. Empirical evaluations demonstrate that these approaches significantly reduce translationese while improving translation naturalness, validated by human evaluations and automatic metrics. Our findings highlight the need for training-aware adjustments to optimize LLM translation outputs, paving the way for more fluent and target-language-consistent translations. We release the data and code at https://github.com/yafuly/LLM_Translationese.

Perdidos en el literalismo: Cómo el entrenamiento supervisado moldea el "traduccionés" en los LLM

Lost in Literalism: How Supervised Training Shapes Translationese in LLMs

Resumen

Support