BenTo: Redução de Tarefas de Referência com Transferibilidade em Contexto
BenTo: Benchmark Task Reduction with In-Context Transferability
October 17, 2024
Autores: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI
Resumo
A avaliação de grandes modelos de linguagem (LLMs) é custosa: requer a geração e exame das saídas do LLM em uma ampla avaliação de várias tarefas. Este artigo investiga como reduzir de forma eficiente as tarefas usadas para avaliar LLMs sem afetar a qualidade da avaliação. Nosso estudo revela que a transferibilidade e relevância da tarefa fornecem informações críticas para identificar o subconjunto mais representativo de tarefas, otimizando uma função de localização de instalações. Propomos uma métrica praticamente eficiente para estimar a transferibilidade entre duas tarefas por meio de aprendizado em contexto (ICL). Ao analisar a transferibilidade em pares, podemos reduzir as tarefas em uma avaliação moderna de LLM (por exemplo, MMLU ou FLAN) para 5%, causando apenas uma diferença <4% na avaliação em relação à avaliação original. Comparado aos trabalhos anteriores, nosso método não requer treinamento, não utiliza gradientes e é altamente eficiente, exigindo apenas ICL.
English
Evaluating large language models (LLMs) is costly: it requires the generation
and examination of LLM outputs on a large-scale benchmark of various tasks.
This paper investigates how to efficiently reduce the tasks used to benchmark
LLMs without affecting the evaluation quality. Our study reveals that task
transferability and relevance provide critical information to identify the most
representative subset of tasks via optimizing a facility location function. We
propose a practically efficient metric for estimating the transferability
between two tasks via in-context learning (ICL). By analyzing the pairwise
transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or
FLAN) to 5% while inducing only a <4% difference to the evaluation on the
original benchmark. Compared to prior works, our method is training-free,
gradient-free, and highly efficient requiring ICL only.Summary
AI-Generated Summary