Cómo Entrenar LLMs Eficientes en el Uso de Datos

Resumen

El entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es costoso. En este artículo, estudiamos enfoques eficientes en términos de datos para el preentrenamiento de LLMs, es decir, técnicas que buscan optimizar la frontera de Pareto entre la calidad del modelo y el consumo de recursos/datos durante el entrenamiento. Buscamos comprender las compensaciones asociadas con rutinas de selección de datos basadas en (i) estimaciones de calidad de datos costosas de calcular, y (ii) la maximización de medidas de cobertura y diversidad en el espacio de características. Nuestra primera técnica, Ask-LLM, aprovecha las capacidades de razonamiento en modo cero-shot de LLMs ajustados por instrucciones para evaluar directamente la calidad de un ejemplo de entrenamiento. Para abordar la cobertura, proponemos el muestreo por Densidad, que modela la distribución de datos para seleccionar una muestra diversa. En nuestra comparación de 19 métodos de muestreo, que incluye cientos de tareas de evaluación y ejecuciones de preentrenamiento, encontramos que Ask-LLM y Densidad son los mejores métodos en sus respectivas categorías. El muestreo por cobertura puede recuperar el rendimiento de los datos completos, mientras que los modelos entrenados con datos de Ask-LLM superan consistentemente al entrenamiento con todos los datos, incluso cuando rechazamos el 90% del conjunto de datos original, y convergen hasta un 70% más rápido.

English

The training of large language models (LLMs) is expensive. In this paper, we study data-efficient approaches for pre-training LLMs, i.e., techniques that aim to optimize the Pareto frontier of model quality and training resource/data consumption. We seek to understand the tradeoffs associated with data selection routines based on (i) expensive-to-compute data-quality estimates, and (ii) maximization of coverage and diversity-based measures in the feature space. Our first technique, Ask-LLM, leverages the zero-shot reasoning capabilities of instruction-tuned LLMs to directly assess the quality of a training example. To target coverage, we propose Density sampling, which models the data distribution to select a diverse sample. In our comparison of 19 samplers, involving hundreds of evaluation tasks and pre-training runs, we find that Ask-LLM and Density are the best methods in their respective categories. Coverage sampling can recover the performance of the full data, while models trained on Ask-LLM data consistently outperform full-data training -- even when we reject 90% of the original dataset, while converging up to 70% faster.

Cómo Entrenar LLMs Eficientes en el Uso de Datos

How to Train Data-Efficient LLMs

Resumen

Support