ChatPaper.aiChatPaper

El diablo está en los errores: Aprovechando los modelos de lenguaje extenso para la evaluación detallada de la traducción automática

The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation

August 14, 2023
Autores: Patrick Fernandes, Daniel Deutsch, Mara Finkelstein, Parker Riley, André F. T. Martins, Graham Neubig, Ankush Garg, Jonathan H. Clark, Markus Freitag, Orhan Firat
cs.AI

Resumen

La evaluación automática de la traducción automática (TA) es una herramienta crítica que impulsa el desarrollo iterativo rápido de los sistemas de TA. Si bien se ha logrado un progreso considerable en la estimación de una única puntuación escalar de calidad, las métricas actuales carecen de la informatividad de esquemas más detallados que anotan errores individuales, como las Métricas de Calidad Multidimensional (MQM, por sus siglas en inglés). En este artículo, ayudamos a cerrar esta brecha proponiendo AutoMQM, una técnica de *prompting* que aprovecha las capacidades de razonamiento y aprendizaje en contexto (*in-context learning*) de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y les solicita identificar y categorizar errores en las traducciones. Comenzamos evaluando LLMs recientes, como PaLM y PaLM-2, mediante *prompting* simple para la predicción de puntuaciones, y estudiamos el impacto de los datos etiquetados a través del aprendizaje en contexto y el ajuste fino (*finetuning*). Luego evaluamos AutoMQM con modelos PaLM-2 y encontramos que mejora el rendimiento en comparación con simplemente solicitar puntuaciones (con ganancias particularmente grandes para modelos más grandes), al tiempo que proporciona interpretabilidad a través de segmentos de errores que se alinean con las anotaciones humanas.
English
Automatic evaluation of machine translation (MT) is a critical tool driving the rapid iterative development of MT systems. While considerable progress has been made on estimating a single scalar quality score, current metrics lack the informativeness of more detailed schemes that annotate individual errors, such as Multidimensional Quality Metrics (MQM). In this paper, we help fill this gap by proposing AutoMQM, a prompting technique which leverages the reasoning and in-context learning capabilities of large language models (LLMs) and asks them to identify and categorize errors in translations. We start by evaluating recent LLMs, such as PaLM and PaLM-2, through simple score prediction prompting, and we study the impact of labeled data through in-context learning and finetuning. We then evaluate AutoMQM with PaLM-2 models, and we find that it improves performance compared to just prompting for scores (with particularly large gains for larger models) while providing interpretability through error spans that align with human annotations.
PDF60December 15, 2024