ChatPaper.aiChatPaper

MUG-Eval: Ein Proxy-Evaluierungsrahmen für mehrsprachige Generierungsfähigkeiten in jeder Sprache

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
Autoren: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

Zusammenfassung

Die Bewertung der Textgenerierungsfähigkeiten großer Sprachmodelle (LLMs) ist eine Herausforderung, insbesondere für ressourcenarme Sprachen, in denen Methoden zur direkten Bewertung rar sind. Wir schlagen MUG-Eval vor, ein neuartiges Framework, das die multilingualen Generierungsfähigkeiten von LLMs bewertet, indem bestehende Benchmarks in Konversationsaufgaben umgewandelt und die Genauigkeiten der LLMs bei diesen Aufgaben gemessen werden. Wir haben diese Konversationsaufgaben speziell so gestaltet, dass sie eine effektive Kommunikation in der Zielsprache erfordern. Anschließend verwenden wir einfach die Erfolgsrate der Aufgabe als Indikator für eine erfolgreiche Konversationsgenerierung. Unser Ansatz bietet zwei wesentliche Vorteile: Er ist unabhängig von sprachspezifischen NLP-Tools oder annotierten Datensätzen, die für die meisten Sprachen begrenzt sind, und er verlässt sich nicht auf LLMs-als-Bewerter, deren Bewertungsqualität außerhalb einiger ressourcenreicher Sprachen abnimmt. Wir bewerten 8 LLMs in 30 Sprachen, die ressourcenreiche, mittlere und ressourcenarme Kategorien abdecken, und stellen fest, dass MUG-Eval stark mit etablierten Benchmarks korreliert (r > 0,75), während es standardisierte Vergleiche über Sprachen und Modelle hinweg ermöglicht. Unser Framework bietet eine robuste und ressourceneffiziente Lösung für die Bewertung multilingualer Generierung, die auf Tausende von Sprachen erweitert werden kann.
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.

Summary

AI-Generated Summary

PDF22May 23, 2025