Cómo Entrenar LLMs Eficientes en el Uso de Datos
How to Train Data-Efficient LLMs
February 15, 2024
Autores: Noveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
cs.AI
Resumen
El entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es costoso. En este artículo, estudiamos enfoques eficientes en términos de datos para el preentrenamiento de LLMs, es decir, técnicas que buscan optimizar la frontera de Pareto entre la calidad del modelo y el consumo de recursos/datos durante el entrenamiento. Buscamos comprender las compensaciones asociadas con rutinas de selección de datos basadas en (i) estimaciones de calidad de datos costosas de calcular, y (ii) la maximización de medidas de cobertura y diversidad en el espacio de características. Nuestra primera técnica, Ask-LLM, aprovecha las capacidades de razonamiento en modo cero-shot de LLMs ajustados por instrucciones para evaluar directamente la calidad de un ejemplo de entrenamiento. Para abordar la cobertura, proponemos el muestreo por Densidad, que modela la distribución de datos para seleccionar una muestra diversa. En nuestra comparación de 19 métodos de muestreo, que incluye cientos de tareas de evaluación y ejecuciones de preentrenamiento, encontramos que Ask-LLM y Densidad son los mejores métodos en sus respectivas categorías. El muestreo por cobertura puede recuperar el rendimiento de los datos completos, mientras que los modelos entrenados con datos de Ask-LLM superan consistentemente al entrenamiento con todos los datos, incluso cuando rechazamos el 90% del conjunto de datos original, y convergen hasta un 70% más rápido.
English
The training of large language models (LLMs) is expensive. In this paper, we
study data-efficient approaches for pre-training LLMs, i.e., techniques that
aim to optimize the Pareto frontier of model quality and training resource/data
consumption. We seek to understand the tradeoffs associated with data selection
routines based on (i) expensive-to-compute data-quality estimates, and (ii)
maximization of coverage and diversity-based measures in the feature space. Our
first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of
instruction-tuned LLMs to directly assess the quality of a training example. To
target coverage, we propose Density sampling, which models the data
distribution to select a diverse sample. In our comparison of 19 samplers,
involving hundreds of evaluation tasks and pre-training runs, we find that
Ask-LLM and Density are the best methods in their respective categories.
Coverage sampling can recover the performance of the full data, while models
trained on Ask-LLM data consistently outperform full-data training -- even when
we reject 90% of the original dataset, while converging up to 70% faster.Summary
AI-Generated Summary