ChatPaper.aiChatPaper

MUG-Eval: Фреймворк для прокси-оценки возможностей многоязычной генерации на любом языке

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

May 20, 2025
Авторы: Seyoung Song, Seogyeong Jeong, Eunsu Kim, Jiho Jin, Dongkwan Kim, Jay Shin, Alice Oh
cs.AI

Аннотация

Оценка способностей больших языковых моделей (LLM) к генерации текста является сложной задачей, особенно для языков с ограниченными ресурсами, где методы прямой оценки практически отсутствуют. Мы предлагаем MUG-Eval — новый фреймворк, который оценивает мультиязычные генеративные способности LLM, преобразуя существующие бенчмарки в диалоговые задачи и измеряя точность моделей на этих задачах. Эти диалоговые задачи были специально разработаны так, чтобы требовать эффективного общения на целевом языке. Затем мы используем показатель успешности выполнения задачи как индикатор успешной генерации диалога. Наш подход предлагает два ключевых преимущества: он не зависит от языково-специфичных инструментов NLP или аннотированных наборов данных, которые ограничены для большинства языков, и не полагается на LLM в роли судей, качество оценки которых снижается за пределами нескольких языков с высокими ресурсами. Мы оцениваем 8 LLM на 30 языках, охватывающих категории с высокими, средними и низкими ресурсами, и обнаруживаем, что MUG-Eval сильно коррелирует с устоявшимися бенчмарками (r > 0,75), обеспечивая стандартизированные сравнения между языками и моделями. Наш фреймворк предоставляет надежное и ресурсоэффективное решение для оценки мультиязычной генерации, которое может быть расширено на тысячи языков.
English
Evaluating text generation capabilities of large language models (LLMs) is challenging, particularly for low-resource languages where methods for direct assessment are scarce. We propose MUG-Eval, a novel framework that evaluates LLMs' multilingual generation capabilities by transforming existing benchmarks into conversational tasks and measuring the LLMs' accuracies on those tasks. We specifically designed these conversational tasks to require effective communication in the target language. Then, we simply use task success rate as a proxy of successful conversation generation. Our approach offers two key advantages: it is independent of language-specific NLP tools or annotated datasets, which are limited for most languages, and it does not rely on LLMs-as-judges, whose evaluation quality degrades outside a few high-resource languages. We evaluate 8 LLMs across 30 languages spanning high, mid, and low-resource categories, and we find that MUG-Eval correlates strongly with established benchmarks (r > 0.75) while enabling standardized comparisons across languages and models. Our framework provides a robust and resource-efficient solution for evaluating multilingual generation that can be extended to thousands of languages.

Summary

AI-Generated Summary

PDF22May 23, 2025