DoReMi: Optimizar las mezclas de datos acelera el preentrenamiento de modelos de lenguaje

Resumen

Las proporciones de mezcla de los dominios de datos de preentrenamiento (por ejemplo, Wikipedia, libros, texto web) afectan significativamente el rendimiento de los modelos de lenguaje (LM). En este artículo, proponemos Reajuste de Dominios con Optimización Minimax (DoReMi), que primero entrena un modelo proxy pequeño utilizando optimización robusta de distribución grupal (Group DRO) sobre dominios para producir pesos de dominio (proporciones de mezcla) sin conocimiento de las tareas posteriores. Luego, remuestreamos un conjunto de datos con estos pesos de dominio y entrenamos un modelo más grande y de tamaño completo. En nuestros experimentos, utilizamos DoReMi en un modelo proxy de 280 millones de parámetros para encontrar pesos de dominio para entrenar un modelo de 8 mil millones de parámetros (30 veces más grande) de manera más eficiente. En The Pile, DoReMi mejora la perplejidad en todos los dominios, incluso cuando reduce el peso de un dominio. DoReMi mejora la precisión promedio en tareas posteriores de pocos ejemplos en un 6.5% sobre un modelo de referencia entrenado con los pesos de dominio predeterminados de The Pile y alcanza la precisión de referencia con 2.6 veces menos pasos de entrenamiento. En el conjunto de datos GLaM, DoReMi, que no tiene conocimiento de las tareas posteriores, incluso iguala el rendimiento de usar pesos de dominio ajustados en tareas posteriores.

English

The mixture proportions of pretraining data domains (e.g., Wikipedia, books, web text) greatly affect language model (LM) performance. In this paper, we propose Domain Reweighting with Minimax Optimization (DoReMi), which first trains a small proxy model using group distributionally robust optimization (Group DRO) over domains to produce domain weights (mixture proportions) without knowledge of downstream tasks. We then resample a dataset with these domain weights and train a larger, full-sized model. In our experiments, we use DoReMi on a 280M-parameter proxy model to find domain weights for training an 8B-parameter model (30x larger) more efficiently. On The Pile, DoReMi improves perplexity across all domains, even when it downweights a domain. DoReMi improves average few-shot downstream accuracy by 6.5% over a baseline model trained using The Pile's default domain weights and reaches the baseline accuracy with 2.6x fewer training steps. On the GLaM dataset, DoReMi, which has no knowledge of downstream tasks, even matches the performance of using domain weights tuned on downstream tasks.

DoReMi: Optimizar las mezclas de datos acelera el preentrenamiento de modelos de lenguaje

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

Resumen

Support