ChatPaper.aiChatPaper

BenTo: Reducción de Tareas de Referencia con Transferibilidad en Contexto

BenTo: Benchmark Task Reduction with In-Context Transferability

October 17, 2024
Autores: Hongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou
cs.AI

Resumen

La evaluación de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es costosa: requiere la generación y examen de salidas de LLM en un conjunto de pruebas a gran escala de diversas tareas. Este documento investiga cómo reducir eficientemente las tareas utilizadas para evaluar LLMs sin afectar la calidad de la evaluación. Nuestro estudio revela que la transferibilidad y relevancia de las tareas proporcionan información crítica para identificar el subconjunto más representativo de tareas mediante la optimización de una función de ubicación de instalaciones. Proponemos una métrica prácticamente eficiente para estimar la transferibilidad entre dos tareas a través del aprendizaje en contexto (ICL, por sus siglas en inglés). Al analizar la transferibilidad por pares, podemos reducir las tareas en un conjunto de pruebas de LLM moderno (por ejemplo, MMLU o FLAN) al 5%, con solo una diferencia <4% en la evaluación en el conjunto de pruebas original. En comparación con trabajos anteriores, nuestro método no requiere entrenamiento, no utiliza gradientes y es altamente eficiente, ya que solo requiere ICL.
English
Evaluating large language models (LLMs) is costly: it requires the generation and examination of LLM outputs on a large-scale benchmark of various tasks. This paper investigates how to efficiently reduce the tasks used to benchmark LLMs without affecting the evaluation quality. Our study reveals that task transferability and relevance provide critical information to identify the most representative subset of tasks via optimizing a facility location function. We propose a practically efficient metric for estimating the transferability between two tasks via in-context learning (ICL). By analyzing the pairwise transferability, we can reduce tasks in a modern LLM benchmark (e.g., MMLU or FLAN) to 5% while inducing only a <4% difference to the evaluation on the original benchmark. Compared to prior works, our method is training-free, gradient-free, and highly efficient requiring ICL only.

Summary

AI-Generated Summary

PDF203November 16, 2024