ChatPaper.aiChatPaper

MUG-Eval: Een Proxy Evaluatiekader voor Multigenerationele Vaardigheden in Elke Taal

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
Auteurs: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

Samenvatting

Het evalueren van tekstgeneratiecapaciteiten van grote taalmodellen (LLMs) is uitdagend, vooral voor talen met beperkte bronnen waar methoden voor directe beoordeling schaars zijn. Wij stellen MUG-Eval voor, een nieuw raamwerk dat de meertalige generatiecapaciteiten van LLMs evalueert door bestaande benchmarks om te zetten in conversatietaken en de nauwkeurigheid van de LLMs op die taken te meten. We hebben deze conversatietaken specifiek ontworpen om effectieve communicatie in de doeltaal te vereisen. Vervolgens gebruiken we simpelweg de taaksuccesratio als een benadering van succesvolle conversatiegeneratie. Onze aanpak biedt twee belangrijke voordelen: het is onafhankelijk van taal-specifieke NLP-tools of geannoteerde datasets, die voor de meeste talen beperkt zijn, en het vertrouwt niet op LLMs-als-beoordelaars, waarvan de evaluatiekwaliteit buiten een paar talen met veel bronnen afneemt. We evalueren 8 LLMs in 30 talen die hoog-, midden- en laag-resourcetalen omvatten, en we ontdekken dat MUG-Eval sterk correleert met gevestigde benchmarks (r > 0,75) terwijl het gestandaardiseerde vergelijkingen tussen talen en modellen mogelijk maakt. Ons raamwerk biedt een robuuste en resource-efficiënte oplossing voor het evalueren van meertalige generatie die kan worden uitgebreid naar duizenden talen.
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.
PDF62May 23, 2025