FLASK: Feinmaschige Bewertung von Sprachmodellen basierend auf Ausrichtungskompetenz-Sets

papers.abstract

Die Bewertung von großen Sprachmodellen (LLMs) ist eine Herausforderung, da die Ausrichtung an menschlichen Werten die Kombination mehrerer Fähigkeiten erfordert und der benötigte Fähigkeitensatz je nach Anweisung variiert. Aktuelle Studien haben die Leistung von LLMs auf zwei Arten bewertet: (1) automatische Bewertung anhand mehrerer unabhängiger Benchmarks und (2) menschliche oder maschinenbasierte Bewertung, die der Antwort eine Gesamtpunktzahl zuweist. Beide Ansätze stellen jedoch grobkörnige Bewertungen dar, die die Natur von Benutzeranweisungen, die eine fallweise Fähigkeitskombination erfordern, nicht berücksichtigen. Dies schränkt die Interpretation der tatsächlichen Fähigkeiten von LLMs ein. In diesem Artikel stellen wir FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets) vor, ein feinkörniges Bewertungsprotokoll, das sowohl für modellbasierte als auch für menschliche Bewertungen verwendet werden kann und die grobkörnige Bewertung auf eine fallweise Fähigkeitssatzebene herunterbricht. Konkret definieren wir 12 feinkörnige Fähigkeiten, die LLMs benötigen, um offene Benutzeranweisungen zu befolgen, und erstellen einen Bewertungssatz, indem wir für jede Instanz einen Satz von Fähigkeiten zuordnen. Zusätzlich bietet FLASK durch die Annotation der Zielbereiche und des Schwierigkeitsgrades für jede Instanz eine ganzheitliche Sicht mit einer umfassenden Analyse der Modellleistung in Abhängigkeit von Fähigkeit, Bereich und Schwierigkeitsgrad. Durch die Anwendung von FLASK vergleichen wir mehrere Open-Source- und proprietäre LLMs und beobachten stark korrelierte Ergebnisse zwischen modellbasierter und menschlicher Bewertung. FLASK ermöglicht es Entwicklern, die Modellleistung genauer zu messen und zu analysieren, wie sie durch die Untersuchung von Faktoren, die LLMs in bestimmten Fähigkeiten kompetent machen, verbessert werden kann. Für Praktiker kann FLASK verwendet werden, um geeignete Modelle für bestimmte Situationen durch einen umfassenden Vergleich verschiedener LLMs zu empfehlen. Wir veröffentlichen die Bewertungsdaten und die Code-Implementierung unter https://github.com/kaistAI/FLASK.

English

Evaluation of Large Language Models (LLMs) is challenging because aligning to human values requires the composition of multiple skills and the required set of skills varies depending on the instruction. Recent studies have evaluated the performance of LLMs in two ways, (1) automatic evaluation on several independent benchmarks and (2) human or machined-based evaluation giving an overall score to the response. However, both settings are coarse-grained evaluations, not considering the nature of user instructions that require instance-wise skill composition, which limits the interpretation of the true capabilities of LLMs. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), a fine-grained evaluation protocol that can be used for both model-based and human-based evaluation which decomposes coarse-level scoring to an instance-wise skill set-level. Specifically, we define 12 fine-grained skills needed for LLMs to follow open-ended user instructions and construct an evaluation set by allocating a set of skills for each instance. Additionally, by annotating the target domains and difficulty level for each instance, FLASK provides a holistic view with a comprehensive analysis of a model's performance depending on skill, domain, and difficulty. Through using FLASK, we compare multiple open-sourced and proprietary LLMs and observe highly-correlated findings between model-based and human-based evaluations. FLASK enables developers to more accurately measure the model performance and how it can be improved by analyzing factors that make LLMs proficient in particular skills. For practitioners, FLASK can be used to recommend suitable models for particular situations through comprehensive comparison among various LLMs. We release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.

FLASK: Feinmaschige Bewertung von Sprachmodellen basierend auf Ausrichtungskompetenz-Sets

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets

papers.abstract

Support