FLASK: Feinmaschige Bewertung von Sprachmodellen basierend auf Ausrichtungskompetenz-Sets
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
July 20, 2023
Autoren: Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo
cs.AI
Zusammenfassung
Die Bewertung von großen Sprachmodellen (LLMs) ist eine Herausforderung, da die Ausrichtung an menschlichen Werten die Kombination mehrerer Fähigkeiten erfordert und der benötigte Fähigkeitensatz je nach Anweisung variiert. Aktuelle Studien haben die Leistung von LLMs auf zwei Arten bewertet: (1) automatische Bewertung anhand mehrerer unabhängiger Benchmarks und (2) menschliche oder maschinenbasierte Bewertung, die der Antwort eine Gesamtpunktzahl zuweist. Beide Ansätze stellen jedoch grobkörnige Bewertungen dar, die die Natur von Benutzeranweisungen, die eine fallweise Fähigkeitskombination erfordern, nicht berücksichtigen. Dies schränkt die Interpretation der tatsächlichen Fähigkeiten von LLMs ein. In diesem Artikel stellen wir FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets) vor, ein feinkörniges Bewertungsprotokoll, das sowohl für modellbasierte als auch für menschliche Bewertungen verwendet werden kann und die grobkörnige Bewertung auf eine fallweise Fähigkeitssatzebene herunterbricht. Konkret definieren wir 12 feinkörnige Fähigkeiten, die LLMs benötigen, um offene Benutzeranweisungen zu befolgen, und erstellen einen Bewertungssatz, indem wir für jede Instanz einen Satz von Fähigkeiten zuordnen. Zusätzlich bietet FLASK durch die Annotation der Zielbereiche und des Schwierigkeitsgrades für jede Instanz eine ganzheitliche Sicht mit einer umfassenden Analyse der Modellleistung in Abhängigkeit von Fähigkeit, Bereich und Schwierigkeitsgrad. Durch die Anwendung von FLASK vergleichen wir mehrere Open-Source- und proprietäre LLMs und beobachten stark korrelierte Ergebnisse zwischen modellbasierter und menschlicher Bewertung. FLASK ermöglicht es Entwicklern, die Modellleistung genauer zu messen und zu analysieren, wie sie durch die Untersuchung von Faktoren, die LLMs in bestimmten Fähigkeiten kompetent machen, verbessert werden kann. Für Praktiker kann FLASK verwendet werden, um geeignete Modelle für bestimmte Situationen durch einen umfassenden Vergleich verschiedener LLMs zu empfehlen. Wir veröffentlichen die Bewertungsdaten und die Code-Implementierung unter https://github.com/kaistAI/FLASK.
English
Evaluation of Large Language Models (LLMs) is challenging because aligning to
human values requires the composition of multiple skills and the required set
of skills varies depending on the instruction. Recent studies have evaluated
the performance of LLMs in two ways, (1) automatic evaluation on several
independent benchmarks and (2) human or machined-based evaluation giving an
overall score to the response. However, both settings are coarse-grained
evaluations, not considering the nature of user instructions that require
instance-wise skill composition, which limits the interpretation of the true
capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language
Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation
protocol that can be used for both model-based and human-based evaluation which
decomposes coarse-level scoring to an instance-wise skill set-level.
Specifically, we define 12 fine-grained skills needed for LLMs to follow
open-ended user instructions and construct an evaluation set by allocating a
set of skills for each instance. Additionally, by annotating the target domains
and difficulty level for each instance, FLASK provides a holistic view with a
comprehensive analysis of a model's performance depending on skill, domain, and
difficulty. Through using FLASK, we compare multiple open-sourced and
proprietary LLMs and observe highly-correlated findings between model-based and
human-based evaluations. FLASK enables developers to more accurately measure
the model performance and how it can be improved by analyzing factors that make
LLMs proficient in particular skills. For practitioners, FLASK can be used to
recommend suitable models for particular situations through comprehensive
comparison among various LLMs. We release the evaluation data and code
implementation at https://github.com/kaistAI/FLASK.