Taxonomía de Inducción Jerárquica: Un Marco de Evaluación Universal para Modelos de Lenguaje de Gran Escala
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
Autores: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
Resumen
Evaluar la efectividad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en la resolución de tareas diversas es fundamental para comprender sus fortalezas y debilidades. Las técnicas de evaluación convencionales suelen aplicar una única estrategia de *prompting* de manera uniforme en los conjuntos de datos, sin considerar los distintos grados de complejidad de las tareas. Introducimos la Taxonomía de *Prompting* Jerárquico (HPT, por sus siglas en inglés), una taxonomía que emplea un Marco de *Prompting* Jerárquico (HPF, por sus siglas en inglés) compuesto por cinco estrategias de *prompting* únicas, ordenadas de la más simple a la más compleja, para evaluar los LLMs con mayor precisión y ofrecer una perspectiva más clara. Esta taxonomía asigna una puntuación, denominada Puntuación de *Prompting* Jerárquico (HP-Score), tanto a los conjuntos de datos como a los LLMs, basándose en las reglas de la taxonomía, proporcionando una comprensión matizada de su capacidad para resolver tareas diversas y ofreciendo una medida universal de la complejidad de las tareas. Además, presentamos el Marco de *Prompting* Jerárquico Adaptativo, que automatiza la selección de estrategias de *prompting* apropiadas para cada tarea. Este estudio compara los marcos de *prompting* jerárquico manual y adaptativo utilizando cuatro LLMs ajustados por instrucciones, concretamente Llama 3 8B, Phi 3 3.8B, Mistral 7B y Gemma 7B, en cuatro conjuntos de datos: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) y SamSum. Los experimentos demuestran la efectividad de la HPT, proporcionando una forma confiable de comparar diferentes tareas y capacidades de los LLMs. Este artículo conduce al desarrollo de una métrica de evaluación universal que puede utilizarse para evaluar tanto la complejidad de los conjuntos de datos como las capacidades de los LLMs. La implementación tanto del HPF manual como del HPF adaptativo está disponible públicamente.
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.Summary
AI-Generated Summary