ChatPaper.aiChatPaper

Os Avaliadores Baseados em Modelos de Linguagem de Grande Escala São a Solução para Escalonar a Avaliação Multilíngue?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

September 14, 2023
Autores: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm demonstrado desempenho impressionante em tarefas de Processamento de Linguagem Natural (PLN), como Resposta a Perguntas, Sumarização e Classificação. O uso de LLMs como avaliadores, capazes de classificar ou pontuar a saída de outros modelos (geralmente LLMs), tem se tornado cada vez mais popular, devido às limitações das técnicas de avaliação atuais, incluindo a falta de benchmarks apropriados, métricas, custo e acesso a anotadores humanos. Embora os LLMs sejam capazes de lidar com aproximadamente 100 idiomas, a maioria das línguas além das 20 mais faladas carece de avaliação sistemática em diversas tarefas, métricas e benchmarks. Isso cria uma necessidade urgente de ampliar a avaliação multilíngue para garantir uma compreensão precisa do desempenho dos LLMs em diversos idiomas. Os avaliadores baseados em LLMs parecem ser a solução perfeita para esse problema, pois não exigem anotadores humanos, referências criadas por humanos ou benchmarks e podem, teoricamente, ser usados para avaliar qualquer idioma coberto pelo LLM. Neste artigo, investigamos se os avaliadores baseados em LLMs podem ajudar a escalar a avaliação multilíngue. Especificamente, calibramos a avaliação baseada em LLMs com 20 mil julgamentos humanos de cinco métricas em três tarefas de geração de texto em oito idiomas. Nossos resultados indicam que os avaliadores baseados em LLMs podem apresentar tendência a pontuações mais altas e devem ser usados com cautela, sempre calibrados com um conjunto de dados de julgamentos de falantes nativos, especialmente em idiomas de baixos recursos e que não utilizam o alfabeto latino.
English
Large Language Models (LLMs) have demonstrated impressive performance on Natural Language Processing (NLP) tasks, such as Question Answering, Summarization, and Classification. The use of LLMs as evaluators, that can rank or score the output of other models (usually LLMs) has become increasingly popular, due to the limitations of current evaluation techniques including the lack of appropriate benchmarks, metrics, cost, and access to human annotators. While LLMs are capable of handling approximately 100 languages, the majority of languages beyond the top 20 lack systematic evaluation across various tasks, metrics, and benchmarks. This creates an urgent need to scale up multilingual evaluation to ensure a precise understanding of LLM performance across diverse languages. LLM-based evaluators seem like the perfect solution to this problem, as they do not require human annotators, human-created references, or benchmarks and can theoretically be used to evaluate any language covered by the LLM. In this paper, we investigate whether LLM-based evaluators can help scale up multilingual evaluation. Specifically, we calibrate LLM-based evaluation against 20k human judgments of five metrics across three text-generation tasks in eight languages. Our findings indicate that LLM-based evaluators may exhibit bias towards higher scores and should be used with caution and should always be calibrated with a dataset of native speaker judgments, particularly in low-resource and non-Latin script languages.
PDF52December 15, 2024