ChatPaper.aiChatPaper

MUG-Eval: Un Framework di Valutazione Proxy per le Capacità di Generazione Multilingue in Qualsiasi Lingua

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
Autori: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

Abstract

Valutare le capacità di generazione di testo dei grandi modelli linguistici (LLMs) è una sfida, in particolare per le lingue a bassa risorsa dove i metodi di valutazione diretta sono scarsi. Proponiamo MUG-Eval, un nuovo framework che valuta le capacità di generazione multilingue degli LLMs trasformando benchmark esistenti in task conversazionali e misurando l'accuratezza degli LLMs su tali task. Abbiamo progettato specificamente questi task conversazionali per richiedere una comunicazione efficace nella lingua target. Successivamente, utilizziamo semplicemente il tasso di successo del task come indicatore di una generazione conversazionale riuscita. Il nostro approccio offre due vantaggi chiave: è indipendente da strumenti NLP specifici per lingua o dataset annotati, che sono limitati per la maggior parte delle lingue, e non si affida a LLMs come giudici, la cui qualità di valutazione si degrada al di fuori di poche lingue ad alta risorsa. Valutiamo 8 LLMs in 30 lingue che coprono categorie ad alta, media e bassa risorsa, e troviamo che MUG-Eval correla fortemente con benchmark consolidati (r > 0,75) consentendo al contempo confronti standardizzati tra lingue e modelli. Il nostro framework fornisce una soluzione robusta ed efficiente in termini di risorse per la valutazione della generazione multilingue che può essere estesa a migliaia di lingue.
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.
PDF62May 23, 2025