Hiërarchische Prompting Taxonomie: Een Universeel Evaluatiekader voor Grote Taalmodellen
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
Auteurs: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
Samenvatting
Het beoordelen van de effectiviteit van grote taalmodellen (LLMs) bij het aanpakken van diverse taken is essentieel om hun sterke en zwakke punten te begrijpen. Conventionele evaluatietechnieken passen meestal een enkele promptstrategie uniform toe op datasets, zonder rekening te houden met de verschillende niveaus van taakcomplexiteit. Wij introduceren de Hierarchical Prompting Taxonomy (HPT), een taxonomie die gebruikmaakt van een Hierarchical Prompt Framework (HPF) dat bestaat uit vijf unieke promptstrategieën, gerangschikt van de eenvoudigste tot de meest complexe, om LLMs nauwkeuriger te beoordelen en een duidelijker perspectief te bieden. Deze taxonomie kent een score toe, genaamd de Hierarchical Prompting Score (HP-Score), aan datasets en LLMs op basis van de regels van de taxonomie, wat een genuanceerd inzicht biedt in hun vermogen om diverse taken op te lossen en een universele maatstaf biedt voor taakcomplexiteit. Daarnaast introduceren we het Adaptive Hierarchical Prompt Framework, dat de selectie van geschikte promptstrategieën voor elke taak automatiseert. Deze studie vergelijkt handmatige en adaptieve hiërarchische promptframeworks met behulp van vier instructie-afgestemde LLMs, namelijk Llama 3 8B, Phi 3 3.8B, Mistral 7B en Gemma 7B, over vier datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) en SamSum. Experimenten tonen de effectiviteit van HPT aan en bieden een betrouwbare manier om verschillende taken en LLM-capaciteiten te vergelijken. Dit artikel leidt tot de ontwikkeling van een universele evaluatiemetriek die kan worden gebruikt om zowel de complexiteit van datasets als de capaciteiten van LLMs te evalueren. De implementatie van zowel het handmatige HPF als het adaptieve HPF is publiekelijk beschikbaar.
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.