Межъязыковая автооценка для оценки мультиязычных LLM-моделей
Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
October 17, 2024
Авторы: Sumanth Doddapaneni, Mohammed Safi Ur Rahman Khan, Dilip Venkatesh, Raj Dabre, Anoop Kunchukuttan, Mitesh M. Khapra
cs.AI
Аннотация
Оценка машинно-сгенерированного текста остается значительным вызовом в области обработки естественного языка, особенно для неанглийских языков. Нынешние методологии, включая автоматизированные метрики, оценки человеком и оценки на основе LLM, в основном сосредоточены на английском языке, что показывает значительный разрыв в мультиязычных оценочных фреймворках. Мы представляем Cross Lingual Auto Evaluation (CIA) Suite, расширяемый фреймворк, который включает оценщиков LLM (Hercule) и новый тестовый набор (Recon), специально разработанный для мультиязычной оценки. Наш тестовый набор включает 500 человеко-аннотированных инструкций, охватывающих различные задачи, а также оценки человеческого суждения на шести языках. Это позволит проводить бенчмаркинг общеязыковых LLM и облегчит метаоценку оценщиков LLM. Предложенная модель, Hercule, является кросс-языковой моделью оценки, которая решает проблему недостатка эталонных ответов на целевом языке, обучаясь присваивать баллы ответам на основе легко доступных эталонных ответов на английском языке. Наши эксперименты показывают, что Hercule более точно соответствует человеческим суждениям по сравнению с собственными моделями, демонстрируя эффективность такой кросс-языковой оценки в условиях ограниченных ресурсов. Кроме того, она также эффективна при оценке на невидимых языках. Это исследование является первым всесторонним изучением кросс-языковой оценки с использованием LLM, представляя масштабируемый и эффективный подход для мультиязычной оценки. Весь код, наборы данных и модели будут общедоступны для дальнейших исследований в этой важной области.
English
Evaluating machine-generated text remains a significant challenge in NLP,
especially for non-English languages. Current methodologies, including
automated metrics, human assessments, and LLM-based evaluations, predominantly
focus on English, revealing a significant gap in multilingual evaluation
frameworks. We introduce the Cross Lingual Auto Evaluation (CIA) Suite, an
extensible framework that includes evaluator LLMs (Hercule) and a novel test
set (Recon) specifically designed for multilingual evaluation. Our test set
features 500 human-annotated instructions spanning various task capabilities
along with human judgment scores across six languages. This would enable
benchmarking of general-purpose multilingual LLMs and facilitate
meta-evaluation of Evaluator LLMs. The proposed model, Hercule, is a
cross-lingual evaluation model that addresses the scarcity of reference answers
in the target language by learning to assign scores to responses based on
easily available reference answers in English. Our experiments demonstrate that
Hercule aligns more closely with human judgments compared to proprietary
models, demonstrating the effectiveness of such cross-lingual evaluation in low
resource scenarios. Further, it is also effective in zero-shot evaluation on
unseen languages. This study is the first comprehensive examination of
cross-lingual evaluation using LLMs, presenting a scalable and effective
approach for multilingual assessment. All code, datasets, and models will be
publicly available to enable further research in this important area.Summary
AI-Generated Summary