ChatPaper.aiChatPaper

BenTo : Réduction des tâches de référence avec transférabilité en contexte

BenTo: Benchmark Task Reduction with In-Context Transferability

October 17, 2024
Auteurs: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Résumé

L'évaluation des grands modèles de langage (LLM) est coûteuse : elle nécessite la génération et l'examen des sorties des LLM sur un banc d'essai à grande échelle de diverses tâches. Cet article examine comment réduire efficacement les tâches utilisées pour évaluer les LLM sans affecter la qualité de l'évaluation. Notre étude révèle que la transférabilité des tâches et leur pertinence fournissent des informations cruciales pour identifier le sous-ensemble le plus représentatif de tâches en optimisant une fonction de localisation d'installation. Nous proposons une mesure pratiquement efficace pour estimer la transférabilité entre deux tâches via l'apprentissage en contexte (ICL). En analysant la transférabilité par paires, nous pouvons réduire les tâches dans un banc d'essai de LLM moderne (par exemple, MMLU ou FLAN) à 5 % tout en n'induisant qu'une différence de <4 % par rapport à l'évaluation sur le banc d'essai d'origine. Comparé aux travaux antérieurs, notre méthode est sans entraînement, sans gradient et très efficace, ne nécessitant que l'ICL.
English
Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.

Summary

AI-Generated Summary

PDF203November 16, 2024