ChatPaper.aiChatPaper

MUG-Eval : Un cadre d'évaluation proxy pour les capacités de génération multilingue dans n'importe quelle langue

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
Auteurs: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

Résumé

L'évaluation des capacités de génération de texte des grands modèles de langage (LLMs) est un défi, en particulier pour les langues à faibles ressources où les méthodes d'évaluation directe sont rares. Nous proposons MUG-Eval, un cadre novateur qui évalue les capacités de génération multilingue des LLMs en transformant des benchmarks existants en tâches conversationnelles et en mesurant la précision des LLMs sur ces tâches. Nous avons spécifiquement conçu ces tâches conversationnelles pour exiger une communication efficace dans la langue cible. Ensuite, nous utilisons simplement le taux de réussite des tâches comme indicateur de la génération réussie de conversations. Notre approche offre deux avantages clés : elle est indépendante des outils de traitement du langage naturel (NLP) spécifiques à une langue ou des ensembles de données annotées, qui sont limités pour la plupart des langues, et elle ne repose pas sur les LLMs-comme-juges, dont la qualité d'évaluation se dégrade en dehors de quelques langues à ressources élevées. Nous évaluons 8 LLMs sur 30 langues couvrant des catégories à ressources élevées, moyennes et faibles, et nous constatons que MUG-Eval corrèle fortement avec des benchmarks établis (r > 0,75) tout en permettant des comparaisons standardisées entre les langues et les modèles. Notre cadre fournit une solution robuste et économe en ressources pour l'évaluation de la génération multilingue, qui peut être étendue à des milliers de langues.
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.

Summary

AI-Generated Summary

PDF22May 23, 2025