ChatPaper.aiChatPaper

Taxonomia de Prompting Hierárquico: Um Framework Universal de Avaliação para Modelos de Linguagem de Grande Escala

Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models

June 18, 2024
Autores: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI

Resumo

Avaliar a eficácia dos modelos de linguagem de grande escala (LLMs, na sigla em inglês) na resolução de diversas tarefas é essencial para compreender seus pontos fortes e fracos. As técnicas convencionais de avaliação geralmente aplicam uma única estratégia de prompt de forma uniforme em diferentes conjuntos de dados, sem considerar os diferentes graus de complexidade das tarefas. Introduzimos a Taxonomia de Prompt Hierárquico (HPT, na sigla em inglês), uma taxonomia que emprega um Framework de Prompt Hierárquico (HPF, na sigla em inglês) composto por cinco estratégias de prompt distintas, organizadas da mais simples à mais complexa, para avaliar os LLMs de forma mais precisa e oferecer uma perspectiva mais clara. Essa taxonomia atribui uma pontuação, chamada de Pontuação de Prompt Hierárquico (HP-Score, na sigla em inglês), tanto aos conjuntos de dados quanto aos LLMs com base nas regras da taxonomia, proporcionando uma compreensão detalhada de sua capacidade de resolver diversas tarefas e oferecendo uma medida universal da complexidade das tarefas. Além disso, introduzimos o Framework de Prompt Hierárquico Adaptativo, que automatiza a seleção das estratégias de prompt apropriadas para cada tarefa. Este estudo compara os frameworks de prompt hierárquico manual e adaptativo utilizando quatro LLMs ajustados por instrução, nomeadamente Llama 3 8B, Phi 3 3.8B, Mistral 7B e Gemma 7B, em quatro conjuntos de dados: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) e SamSum. Os experimentos demonstram a eficácia da HPT, fornecendo uma maneira confiável de comparar diferentes tarefas e capacidades dos LLMs. Este artigo contribui para o desenvolvimento de uma métrica de avaliação universal que pode ser usada para avaliar tanto a complexidade dos conjuntos de dados quanto as capacidades dos LLMs. A implementação tanto do HPF manual quanto do HPF adaptativo está disponível publicamente.
English
Assessing the effectiveness of large language models (LLMs) in addressing diverse tasks is essential for comprehending their strengths and weaknesses. Conventional evaluation techniques typically apply a single prompting strategy uniformly across datasets, not considering the varying degrees of task complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy that employs a Hierarchical Prompt Framework (HPF) composed of five unique prompting strategies, arranged from the simplest to the most complex, to assess LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a score, called the Hierarchical Prompting Score (HP-Score), to datasets as well as LLMs based on the rules of the taxonomy, providing a nuanced understanding of their ability to solve diverse tasks and offering a universal measure of task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt framework, which automates the selection of appropriate prompting strategies for each task. This study compares manual and adaptive hierarchical prompt frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B, Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness of HPT, providing a reliable way to compare different tasks and LLM capabilities. This paper leads to the development of a universal evaluation metric that can be used to evaluate both the complexity of the datasets and the capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is publicly available.
PDF51December 4, 2024