FLASK:アライメントスキルに基づく細粒度言語モデル評価セット
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
著者: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
要旨
大規模言語モデル(LLM)の評価は、人間の価値観に沿うためには複数のスキルの組み合わせが必要であり、指示によって必要なスキルセットが異なるため、困難を伴います。最近の研究では、LLMの性能を以下の2つの方法で評価しています。(1) 複数の独立したベンチマークでの自動評価、(2) 人間または機械による評価で、応答に対して総合的なスコアを付与する方法です。しかし、どちらの設定も粗い粒度の評価であり、インスタンスごとに必要なスキルの組み合わせを考慮していないため、LLMの真の能力を解釈する上で限界があります。本論文では、FLASK(Fine-grained Language Model Evaluation based on Alignment SKill Sets)を紹介します。FLASKは、モデルベースおよび人間ベースの評価の両方に使用できる細粒度の評価プロトコルであり、粗いレベルのスコアリングをインスタンスごとのスキルセットレベルに分解します。具体的には、LLMがオープンエンドのユーザー指示に従うために必要な12の細粒度スキルを定義し、各インスタンスにスキルセットを割り当てた評価セットを構築します。さらに、各インスタンスのターゲットドメインと難易度レベルを注釈することで、FLASKはスキル、ドメイン、難易度に応じたモデルの性能を包括的に分析するホリスティックな視点を提供します。FLASKを使用して、複数のオープンソースおよびプロプライエタリなLLMを比較し、モデルベースと人間ベースの評価の間に高い相関性があることを観察しました。FLASKにより、開発者はモデルの性能をより正確に測定し、特定のスキルにおいてLLMが熟達する要因を分析することで、どのように改善できるかを理解できます。実務者にとっては、FLASKを使用して、さまざまなLLMの包括的な比較を通じて、特定の状況に適したモデルを推薦することが可能です。評価データとコード実装はhttps://github.com/kaistAI/FLASKで公開しています。
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.