Taxonomie de Prompting Hiérarchique : Un Cadre d'Évaluation Universel pour les Modèles de Langage à Grande Échelle
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
Auteurs: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
Résumé
Évaluer l'efficacité des grands modèles de langage (LLMs) dans la résolution de tâches variées est essentiel pour comprendre leurs forces et leurs faiblesses. Les techniques d'évaluation conventionnelles appliquent généralement une stratégie de prompt unique de manière uniforme sur les ensembles de données, sans tenir compte des différents niveaux de complexité des tâches. Nous introduisons la Taxonomie de Prompt Hiérarchique (HPT), une taxonomie qui utilise un Cadre de Prompt Hiérarchique (HPF) composé de cinq stratégies de prompt distinctes, organisées du plus simple au plus complexe, pour évaluer les LLMs de manière plus précise et offrir une perspective plus claire. Cette taxonomie attribue un score, appelé Score de Prompt Hiérarchique (HP-Score), aux ensembles de données ainsi qu'aux LLMs en fonction des règles de la taxonomie, fournissant une compréhension nuancée de leur capacité à résoudre des tâches variées et offrant une mesure universelle de la complexité des tâches. De plus, nous introduisons le Cadre de Prompt Hiérarchique Adaptatif, qui automatise la sélection des stratégies de prompt appropriées pour chaque tâche. Cette étude compare les cadres de prompt hiérarchique manuel et adaptatif en utilisant quatre LLMs ajustés par instruction, à savoir Llama 3 8B, Phi 3 3.8B, Mistral 7B et Gemma 7B, sur quatre ensembles de données : BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) et SamSum. Les expériences démontrent l'efficacité de la HPT, fournissant une méthode fiable pour comparer différentes tâches et les capacités des LLMs. Ce document conduit au développement d'une métrique d'évaluation universelle qui peut être utilisée pour évaluer à la fois la complexité des ensembles de données et les capacités des LLMs. L'implémentation du HPF manuel et du HPF adaptatif est publiquement disponible.
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.Summary
AI-Generated Summary