ChatPaper.aiChatPaper

BenTo: Benchmark-Aufgabenreduktion mit kontextbezogener Übertragbarkeit

BenTo: Benchmark Task Reduction with In-Context Transferability

October 17, 2024
Autoren: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Zusammenfassung

Die Evaluierung großer Sprachmodelle (LLMs) ist kostspielig: Sie erfordert die Generierung und Untersuchung von LLM-Ausgaben auf einem groß angelegten Benchmark verschiedener Aufgaben. Diese Arbeit untersucht, wie man effizient die Aufgaben reduzieren kann, die zur Bewertung von LLMs verwendet werden, ohne die Evaluierungsqualität zu beeinträchtigen. Unsere Studie zeigt, dass die Übertragbarkeit und Relevanz von Aufgaben entscheidende Informationen liefern, um die repräsentativste Teilmengen von Aufgaben zu identifizieren, indem eine Facility-Location-Funktion optimiert wird. Wir schlagen eine praktisch effiziente Metrik zur Schätzung der Übertragbarkeit zwischen zwei Aufgaben mittels In-Context-Learning (ICL) vor. Durch die Analyse der paarweisen Übertragbarkeit können wir die Aufgaben in einem modernen LLM-Benchmark (z.B. MMLU oder FLAN) auf 5% reduzieren, während nur eine <4%ige Differenz zur Bewertung auf dem Original-Benchmark induziert wird. Im Vergleich zu früheren Arbeiten ist unsere Methode trainingsfrei, gradientenfrei und äußerst effizient und erfordert nur ICL.
English
Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.
PDF203November 16, 2024