ChatPaper.aiChatPaper

MUG-Eval: 모든 언어에서의 다국어 생성 능력을 위한 프록시 평가 프레임워크

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
저자: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

초록

대규모 언어 모델(LLM)의 텍스트 생성 능력을 평가하는 것은 특히 직접적인 평가 방법이 부족한 저자원 언어의 경우 어려운 과제입니다. 우리는 MUG-Eval이라는 새로운 프레임워크를 제안하며, 이는 기존 벤치마크를 대화형 작업으로 변환하고 해당 작업에서 LLM의 정확도를 측정함으로써 LLM의 다국어 생성 능력을 평가합니다. 우리는 이러한 대화형 작업을 특정 언어에서 효과적인 의사소통을 요구하도록 설계했습니다. 그런 다음, 단순히 작업 성공률을 성공적인 대화 생성을 대리 지표로 사용합니다. 우리의 접근 방식은 두 가지 주요 장점을 제공합니다: 대부분의 언어에서 제한적인 언어별 NLP 도구나 주석이 달린 데이터셋에 의존하지 않으며, 소수의 고자원 언어 외에서는 평가 품질이 저하되는 LLM-as-judges에 의존하지 않습니다. 우리는 고자원, 중간자원, 저자원 범주에 걸친 30개 언어에서 8개의 LLM을 평가했으며, MUG-Eval이 기존 벤치마크와 강한 상관관계(r > 0.75)를 보이면서도 언어와 모델 간의 표준화된 비교를 가능하게 한다는 것을 발견했습니다. 우리의 프레임워크는 수천 개의 언어로 확장 가능한 다국어 생성 평가를 위한 견고하고 자원 효율적인 솔루션을 제공합니다.
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.

Summary

AI-Generated Summary

PDF22May 23, 2025