ChatPaper.aiChatPaper

¿Son los evaluadores basados en modelos de lenguaje de gran escala la solución para escalar la evaluación multilingüe?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

September 14, 2023
Autores: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en tareas de Procesamiento del Lenguaje Natural (NLP), como Respuesta a Preguntas, Resumen y Clasificación. El uso de LLMs como evaluadores, capaces de clasificar o puntuar la salida de otros modelos (generalmente LLMs), ha ganado popularidad debido a las limitaciones de las técnicas de evaluación actuales, incluyendo la falta de benchmarks adecuados, métricas, costos y acceso a anotadores humanos. Aunque los LLMs pueden manejar aproximadamente 100 idiomas, la mayoría de los idiomas más allá de los 20 principales carecen de una evaluación sistemática en diversas tareas, métricas y benchmarks. Esto crea una necesidad urgente de escalar la evaluación multilingüe para garantizar una comprensión precisa del rendimiento de los LLMs en diversos idiomas. Los evaluadores basados en LLMs parecen ser la solución perfecta a este problema, ya que no requieren anotadores humanos, referencias creadas por humanos o benchmarks, y teóricamente pueden usarse para evaluar cualquier idioma cubierto por el LLM. En este artículo, investigamos si los evaluadores basados en LLMs pueden ayudar a escalar la evaluación multilingüe. Específicamente, calibramos la evaluación basada en LLMs con 20k juicios humanos de cinco métricas en tres tareas de generación de texto en ocho idiomas. Nuestros hallazgos indican que los evaluadores basados en LLMs pueden mostrar un sesgo hacia puntuaciones más altas y deben usarse con precaución, siempre calibrados con un conjunto de datos de juicios de hablantes nativos, particularmente en idiomas de bajos recursos y con escrituras no latinas.
English
Large Language Models (LLMs) have demonstrated impressive performance on Natural Language Processing (NLP) tasks, such as Question Answering, Summarization, and Classification. The use of LLMs as evaluators, that can rank or score the output of other models (usually LLMs) has become increasingly popular, due to the limitations of current evaluation techniques including the lack of appropriate benchmarks, metrics, cost, and access to human annotators. While LLMs are capable of handling approximately 100 languages, the majority of languages beyond the top 20 lack systematic evaluation across various tasks, metrics, and benchmarks. This creates an urgent need to scale up multilingual evaluation to ensure a precise understanding of LLM performance across diverse languages. LLM-based evaluators seem like the perfect solution to this problem, as they do not require human annotators, human-created references, or benchmarks and can theoretically be used to evaluate any language covered by the LLM. In this paper, we investigate whether LLM-based evaluators can help scale up multilingual evaluation. Specifically, we calibrate LLM-based evaluation against 20k human judgments of five metrics across three text-generation tasks in eight languages. Our findings indicate that LLM-based evaluators may exhibit bias towards higher scores and should be used with caution and should always be calibrated with a dataset of native speaker judgments, particularly in low-resource and non-Latin script languages.
PDF52December 15, 2024