BenTo: Riduzione dei compiti di benchmark con trasferibilità contestuale
BenTo: Benchmark Task Reduction with In-Context Transferability
October 17, 2024
Autori: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI
Abstract
Valutare i grandi modelli linguistici (LLM) è costoso: richiede la generazione e l'esame delle uscite dei LLM su un ampio benchmark di varie attività. Questo articolo indaga su come ridurre efficientemente le attività utilizzate per valutare i LLM senza influire sulla qualità della valutazione. Il nostro studio rivela che la trasferibilità e la rilevanza delle attività forniscono informazioni cruciali per identificare il sottoinsieme più rappresentativo di attività tramite l'ottimizzazione di una funzione di localizzazione delle strutture. Proponiamo una metrica praticamente efficiente per stimare la trasferibilità tra due attività tramite apprendimento in contesto (ICL). Analizzando la trasferibilità a coppie, possiamo ridurre le attività in un moderno benchmark LLM (ad esempio, MMLU o FLAN) al 5% causando solo una differenza <4% rispetto alla valutazione sul benchmark originale. Rispetto ai lavori precedenti, il nostro metodo è privo di addestramento, privo di gradienti ed estremamente efficiente richiedendo solo ICL.
English
Evaluating large language models (LLMs) is costly: it requires the generation
and examination of LLM outputs on a large-scale benchmark of various tasks.
This paper investigates how to efficiently reduce the tasks used to benchmark
LLMs without affecting the evaluation quality. Our study reveals that task
transferability and relevance provide critical information to identify the most
representative subset of tasks via optimizing a facility location function. We
propose a practically efficient metric for estimating the transferability
between two tasks via in-context learning (ICL). By analyzing the pairwise
transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or
FLAN) to 5% while inducing only a <4% difference to the evaluation on the
original benchmark. Compared to prior works, our method is training-free,
gradient-free, and highly efficient requiring ICL only.Summary
AI-Generated Summary