Perdido no Literalismo: Como o Treinamento Supervisionado Molda o Translationês em LLMs
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs
March 6, 2025
Autores: Yafu Li, Ronghao Zhang, Zhilin Wang, Huajian Zhang, Leyang Cui, Yongjing Yin, Tong Xiao, Yue Zhang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs, na sigla em inglês) alcançaram sucesso notável em tradução automática, demonstrando desempenho impressionante em diversos idiomas. No entanto, o "translationese", caracterizado por traduções excessivamente literais e não naturais, continua sendo um desafio persistente em sistemas de tradução baseados em LLMs. Apesar de seu pré-treinamento em vastos corpora de enunciados naturais, os LLMs exibem erros de translationese e geram traduções inesperadamente não naturais, decorrentes de vieses introduzidos durante o ajuste fino supervisionado (SFT, na sigla em inglês). Neste trabalho, avaliamos sistematicamente a prevalência do translationese em traduções geradas por LLMs e investigamos suas raízes durante o treinamento supervisionado. Introduzimos métodos para mitigar esses vieses, incluindo o aprimoramento de referências de ouro e a filtragem de instâncias de treinamento não naturais. Avaliações empíricas demonstram que essas abordagens reduzem significativamente o translationese enquanto melhoram a naturalidade da tradução, validadas por avaliações humanas e métricas automáticas. Nossas descobertas destacam a necessidade de ajustes conscientes do treinamento para otimizar as saídas de tradução dos LLMs, abrindo caminho para traduções mais fluentes e consistentes com o idioma de destino. Disponibilizamos os dados e o código em https://github.com/yafuly/LLM_Translationese.
English
Large language models (LLMs) have achieved remarkable success in machine
translation, demonstrating impressive performance across diverse languages.
However, translationese, characterized by overly literal and unnatural
translations, remains a persistent challenge in LLM-based translation systems.
Despite their pre-training on vast corpora of natural utterances, LLMs exhibit
translationese errors and generate unexpected unnatural translations, stemming
from biases introduced during supervised fine-tuning (SFT). In this work, we
systematically evaluate the prevalence of translationese in LLM-generated
translations and investigate its roots during supervised training. We introduce
methods to mitigate these biases, including polishing golden references and
filtering unnatural training instances. Empirical evaluations demonstrate that
these approaches significantly reduce translationese while improving
translation naturalness, validated by human evaluations and automatic metrics.
Our findings highlight the need for training-aware adjustments to optimize LLM
translation outputs, paving the way for more fluent and
target-language-consistent translations. We release the data and code at
https://github.com/yafuly/LLM_Translationese.Summary
AI-Generated Summary