Hierarchische Eingabe-Taxonomie: Ein universeller Bewertungsrahmen für große Sprachmodelle
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
Autoren: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
Zusammenfassung
Die Bewertung der Wirksamkeit großer Sprachmodelle (LLMs) bei der Bewältigung verschiedener Aufgaben ist entscheidend, um ihre Stärken und Schwächen zu verstehen. Herkömmliche Evaluierungstechniken wenden in der Regel eine einzige Aufforderungsstrategie einheitlich auf Datensätze an, ohne die unterschiedlichen Grade der Aufgabenschwierigkeit zu berücksichtigen. Wir stellen die Hierarchische Aufforderungstaxonomie (HPT) vor, eine Taxonomie, die ein Hierarchisches Aufforderungsframework (HPF) verwendet, das aus fünf einzigartigen Aufforderungsstrategien besteht, angeordnet von der einfachsten bis zur komplexesten, um LLMs genauer zu bewerten und eine klarere Perspektive zu bieten. Diese Taxonomie weist Datensätzen sowie LLMs basierend auf den Regeln der Taxonomie eine Punktzahl zu, die als Hierarchischer Aufforderungspunktewert (HP-Score) bezeichnet wird, um ein differenziertes Verständnis ihrer Fähigkeit zur Lösung verschiedener Aufgaben zu bieten und ein universelles Maß für die Aufgabenschwierigkeit anzubieten. Darüber hinaus stellen wir das Adaptive Hierarchische Aufforderungsframework vor, das die Auswahl geeigneter Aufforderungsstrategien für jede Aufgabe automatisiert. Diese Studie vergleicht manuelle und adaptive hierarchische Aufforderungsframeworks unter Verwendung von vier anweisungsgesteuerten LLMs, nämlich Llama 3 8B, Phi 3 3.8B, Mistral 7B und Gemma 7B, über vier Datensätze: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) und SamSum. Experimente zeigen die Wirksamkeit von HPT auf und bieten eine zuverlässige Möglichkeit, verschiedene Aufgaben und LLM-Fähigkeiten zu vergleichen. Dieser Artikel führt zur Entwicklung eines universellen Bewertungsmaßstabs, der sowohl zur Bewertung der Komplexität der Datensätze als auch der Fähigkeiten von LLMs verwendet werden kann. Die Implementierung sowohl des manuellen HPF als auch des adaptiven HPF ist öffentlich verfügbar.
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.Summary
AI-Generated Summary