ChatPaper.aiChatPaper

Les évaluateurs basés sur les grands modèles de langage sont-ils la solution pour intensifier l'évaluation multilingue ?

Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?

September 14, 2023
Auteurs: Rishav Hada, Varun Gumma, Adrian de Wynter, Harshita Diddee, Mohamed Ahmed, Monojit Choudhury, Kalika Bali, Sunayana Sitaram
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) ont démontré des performances impressionnantes dans les tâches de traitement du langage naturel (NLP), telles que la réponse à des questions, la synthétisation et la classification. L'utilisation des LLMs en tant qu'évaluateurs, capables de classer ou de noter la sortie d'autres modèles (généralement des LLMs), est devenue de plus en plus populaire, en raison des limitations des techniques d'évaluation actuelles, notamment le manque de benchmarks appropriés, de métriques, de coûts et d'accès à des annotateurs humains. Bien que les LLMs soient capables de gérer environ 100 langues, la majorité des langues au-delà des 20 premières manquent d'évaluation systématique à travers diverses tâches, métriques et benchmarks. Cela crée un besoin urgent de renforcer l'évaluation multilingue pour garantir une compréhension précise des performances des LLMs dans des langues diverses. Les évaluateurs basés sur les LLMs semblent être la solution idéale à ce problème, car ils ne nécessitent pas d'annotateurs humains, de références créées par l'homme ou de benchmarks, et peuvent théoriquement être utilisés pour évaluer n'importe quelle langue couverte par le LLM. Dans cet article, nous examinons si les évaluateurs basés sur les LLMs peuvent contribuer à renforcer l'évaluation multilingue. Plus précisément, nous calibrons l'évaluation basée sur les LLMs par rapport à 20 000 jugements humains sur cinq métriques à travers trois tâches de génération de texte dans huit langues. Nos résultats indiquent que les évaluateurs basés sur les LLMs peuvent présenter un biais en faveur de scores plus élevés et devraient être utilisés avec prudence, et devraient toujours être calibrés avec un ensemble de données de jugements de locuteurs natifs, en particulier dans les langues à faibles ressources et les langues utilisant des scripts non latins.
English
Large Language Models (LLMs) have demonstrated impressive performance on Natural Language Processing (NLP) tasks, such as Question Answering, Summarization, and Classification. The use of LLMs as evaluators, that can rank or score the output of other models (usually LLMs) has become increasingly popular, due to the limitations of current evaluation techniques including the lack of appropriate benchmarks, metrics, cost, and access to human annotators. While LLMs are capable of handling approximately 100 languages, the majority of languages beyond the top 20 lack systematic evaluation across various tasks, metrics, and benchmarks. This creates an urgent need to scale up multilingual evaluation to ensure a precise understanding of LLM performance across diverse languages. LLM-based evaluators seem like the perfect solution to this problem, as they do not require human annotators, human-created references, or benchmarks and can theoretically be used to evaluate any language covered by the LLM. In this paper, we investigate whether LLM-based evaluators can help scale up multilingual evaluation. Specifically, we calibrate LLM-based evaluation against 20k human judgments of five metrics across three text-generation tasks in eight languages. Our findings indicate that LLM-based evaluators may exhibit bias towards higher scores and should be used with caution and should always be calibrated with a dataset of native speaker judgments, particularly in low-resource and non-Latin script languages.
PDF52December 15, 2024