ChatPaper.aiChatPaper

FLASK: Оценка языковых моделей на основе навыков согласования с учетом детализации

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

July 20, 2023
Авторы: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI

Аннотация

Оценка крупных языковых моделей (LLMs) представляет собой сложную задачу, поскольку их соответствие человеческим ценностям требует сочетания множества навыков, а необходимый набор навыков варьируется в зависимости от инструкции. В последних исследованиях производительность LLMs оценивалась двумя способами: (1) автоматическая оценка на нескольких независимых бенчмарках и (2) оценка на основе человека или машин, присваивающая общий балл ответу. Однако оба подхода представляют собой грубую оценку, не учитывающую природу пользовательских инструкций, которые требуют композиции навыков на уровне отдельных экземпляров, что ограничивает интерпретацию истинных возможностей LLMs. В данной статье мы представляем FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets) — протокол детализированной оценки, который может использоваться как для модельной, так и для человеческой оценки, декомпозируя общий балл на уровень наборов навыков для каждого экземпляра. В частности, мы определяем 12 детализированных навыков, необходимых LLMs для выполнения открытых пользовательских инструкций, и создаем набор данных для оценки, назначая набор навыков для каждого экземпляра. Дополнительно, аннотируя целевые области и уровень сложности для каждого экземпляра, FLASK предоставляет целостное представление с комплексным анализом производительности модели в зависимости от навыка, области и сложности. Используя FLASK, мы сравниваем несколько открытых и проприетарных LLMs и наблюдаем высокую корреляцию между модельной и человеческой оценками. FLASK позволяет разработчикам более точно измерять производительность модели и определять, как её можно улучшить, анализируя факторы, которые делают LLMs эффективными в определенных навыках. Для практиков FLASK может быть использован для рекомендации подходящих моделей для конкретных ситуаций через всестороннее сравнение различных LLMs. Мы публикуем данные оценки и реализацию кода по адресу https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model's performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
PDF132December 15, 2024