Tassonomia del Prompting Gerarchico: Un Framework Universale di Valutazione per i Modelli Linguistici di Grande Dimensione
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
Autori: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
Abstract
Valutare l'efficacia dei grandi modelli linguistici (LLM) nell'affrontare compiti diversi è essenziale per comprenderne punti di forza e debolezze. Le tecniche di valutazione convenzionali applicano tipicamente una singola strategia di prompting in modo uniforme su tutti i dataset, senza considerare i diversi gradi di complessità dei compiti. Introduciamo la Tassonomia del Prompting Gerarchico (HPT), una tassonomia che utilizza un Framework di Prompting Gerarchico (HPF) composto da cinque strategie di prompting uniche, organizzate dalla più semplice alla più complessa, per valutare i LLM in modo più preciso e offrire una prospettiva più chiara. Questa tassonomia assegna un punteggio, chiamato Hierarchical Prompting Score (HP-Score), sia ai dataset che ai LLM in base alle regole della tassonomia, fornendo una comprensione sfumata della loro capacità di risolvere compiti diversi e offrendo una misura universale della complessità dei compiti. Inoltre, introduciamo il Framework di Prompting Gerarchico Adattivo, che automatizza la selezione delle strategie di prompting appropriate per ciascun compito. Questo studio confronta i framework di prompting gerarchico manuale e adattivo utilizzando quattro LLM ottimizzati per le istruzioni, ovvero Llama 3 8B, Phi 3 3.8B, Mistral 7B e Gemma 7B, su quattro dataset: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) e SamSum. Gli esperimenti dimostrano l'efficacia di HPT, fornendo un metodo affidabile per confrontare diversi compiti e le capacità dei LLM. Questo lavoro porta allo sviluppo di una metrica di valutazione universale che può essere utilizzata per valutare sia la complessità dei dataset che le capacità dei LLM. L'implementazione sia di HPF manuale che di HPF adattivo è pubblicamente disponibile.
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.