ChatPaper.aiChatPaper

BenTo: Снижение задач бенчмарков с возможностью передачи в контексте

BenTo: Benchmark Task Reduction with In-Context Transferability

October 17, 2024
Авторы: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Аннотация

Оценка больших языковых моделей (LLM) затратна: это требует генерации и изучения выводов LLM на крупномасштабном наборе задач. В данной статье исследуется, как эффективно сократить задачи, используемые для оценки LLM, не влияя на качество оценки. Наше исследование показывает, что переносимость и актуальность задач предоставляют критическую информацию для выявления наиболее репрезентативного подмножества задач путем оптимизации функции расположения объектов. Мы предлагаем практически эффективную метрику для оценки переносимости между двумя задачами с помощью обучения в контексте (ICL). Анализируя парную переносимость, мы можем сократить задачи в современном наборе задач LLM (например, MMLU или FLAN) до 5%, при этом вызывая лишь <4% разницу в оценке на исходном наборе задач. По сравнению с предыдущими работами, наш метод не требует обучения, градиентов и является высокоэффективным, требуя только ICL.
English
Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.

Summary

AI-Generated Summary

PDF203November 16, 2024