Иерархическая таксономия подсказок: универсальная система оценки для крупных языковых моделей
Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models
June 18, 2024
Авторы: Devichand Budagam, Sankalp KJ, Ashutosh Kumar, Vinija Jain, Aman Chadha
cs.AI
Аннотация
Оценка эффективности больших языковых моделей (LLM) в решении разнообразных задач является важной для понимания их сильных и слабых сторон. Традиционные методы оценки обычно применяют одну стратегию подсказки равномерно по всем наборам данных, не учитывая изменяющуюся сложность задач. Мы представляем Таксономию Иерархических Подсказок (HPT), таксономию, которая использует Иерархическую Структуру Подсказок (HPF), состоящую из пяти уникальных стратегий подсказок, упорядоченных от простой к наиболее сложной, для более точной оценки LLM и предоставления более ясной перспективы. Эта таксономия присваивает оценку, называемую Оценкой Иерархических Подсказок (HP-Score), наборам данных, а также LLM на основе правил таксономии, обеспечивая тонкое понимание их способности решать разнообразные задачи и предлагая универсальную меру сложности задач. Кроме того, мы представляем Адаптивную Иерархическую Структуру Подсказок, которая автоматизирует выбор соответствующих стратегий подсказок для каждой задачи. В данном исследовании сравниваются ручные и адаптивные иерархические структуры подсказок с использованием четырех настроенных по инструкциям LLM: Llama 3 8B, Phi 3 3.8B, Mistral 7B и Gemma 7B, на четырех наборах данных: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) и SamSum. Эксперименты демонстрируют эффективность HPT, предоставляя надежный способ сравнения различных задач и возможностей LLM. Данная статья приводит к разработке универсальной метрики оценки, которая может быть использована для оценки как сложности наборов данных, так и возможностей LLM. Реализация как ручной HPF, так и адаптивной HPF доступна публично.
English
Assessing the effectiveness of large language models (LLMs) in addressing
diverse tasks is essential for comprehending their strengths and weaknesses.
Conventional evaluation techniques typically apply a single prompting strategy
uniformly across datasets, not considering the varying degrees of task
complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy
that employs a Hierarchical Prompt Framework (HPF) composed of five unique
prompting strategies, arranged from the simplest to the most complex, to assess
LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a
score, called the Hierarchical Prompting Score (HP-Score), to datasets as well
as LLMs based on the rules of the taxonomy, providing a nuanced understanding
of their ability to solve diverse tasks and offering a universal measure of
task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt
framework, which automates the selection of appropriate prompting strategies
for each task. This study compares manual and adaptive hierarchical prompt
frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B,
Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA),
IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness
of HPT, providing a reliable way to compare different tasks and LLM
capabilities. This paper leads to the development of a universal evaluation
metric that can be used to evaluate both the complexity of the datasets and the
capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is
publicly available.Summary
AI-Generated Summary