階層的プロンプティング分類体系:大規模言語モデルのための汎用評価フレームワーク
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
著者: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
要旨
大規模言語モデル(LLM)の多様なタスクへの対応能力を評価することは、その強みと弱点を理解する上で重要です。従来の評価手法では、通常、単一のプロンプト戦略をデータセット全体に一律に適用し、タスクの複雑さの度合いを考慮していませんでした。本研究では、Hierarchical Prompting Taxonomy(HPT)を導入します。この分類法は、最も単純なものから最も複雑なものまで5つの異なるプロンプト戦略で構成されるHierarchical Prompt Framework(HPF)を採用し、LLMをより正確に評価し、明確な視点を提供します。この分類法は、データセットおよびLLMに対して、分類法のルールに基づいてHierarchical Prompting Score(HP-Score)と呼ばれるスコアを割り当て、多様なタスクを解決する能力を詳細に理解し、タスクの複雑さを普遍的に測定する方法を提供します。さらに、各タスクに適したプロンプト戦略を自動的に選択するAdaptive Hierarchical Promptフレームワークを導入します。本研究では、Llama 3 8B、Phi 3 3.8B、Mistral 7B、Gemma 7Bという4つの指示調整済みLLMを使用し、BoolQ、CommonSenseQA(CSQA)、IWSLT-2017 en-fr(IWSLT)、SamSumという4つのデータセットを用いて、手動および適応型の階層的プロンプトフレームワークを比較します。実験結果は、HPTの有効性を示し、異なるタスクとLLMの能力を比較する信頼性の高い方法を提供します。本論文は、データセットの複雑さとLLMの能力の両方を評価するための普遍的な評価指標の開発につながります。手動HPFと適応型HPFの実装は公開されています。
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.Summary
AI-Generated Summary