Modelos de Lenguaje Especializados con Inferencia Económica a partir de Datos Limitados de un Dominio
Specialized Language Models with Cheap Inference from Limited Domain Data
February 2, 2024
Autores: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
cs.AI
Resumen
Los modelos de lenguaje a gran escala han surgido como una herramienta versátil, pero son difíciles de aplicar a tareas que carecen de grandes presupuestos de inferencia y grandes conjuntos de entrenamiento en el dominio específico. Este trabajo formaliza estas restricciones y distingue cuatro variables importantes: el presupuesto de preentrenamiento (para entrenar antes de conocer el dominio objetivo), el presupuesto de especialización (para entrenar después de conocer el dominio objetivo), el presupuesto de inferencia y el tamaño del conjunto de entrenamiento en el dominio. En estos escenarios, comparamos diferentes enfoques de la literatura de aprendizaje automático. Limitados por el costo de inferencia, encontramos alternativas mejores a la práctica estándar de entrenar modelos de transformadores muy grandes sin modificaciones. En particular, demostramos que las hiper-redes y las mezclas de expertos tienen mejor perplejidad para grandes presupuestos de preentrenamiento, mientras que los modelos pequeños entrenados en conjuntos de datos muestreados por importancia son atractivos para grandes presupuestos de especialización.
English
Large language models have emerged as a versatile tool but are challenging to
apply to tasks lacking large inference budgets and large in-domain training
sets. This work formalizes these constraints and distinguishes four important
variables: the pretraining budget (for training before the target domain is
known), the specialization budget (for training after the target domain is
known), the inference budget, and the in-domain training set size. Across these
settings, we compare different approaches from the machine learning literature.
Limited by inference cost, we find better alternatives to the standard practice
of training very large vanilla transformer models. In particular, we show that
hyper-networks and mixture of experts have better perplexity for large
pretraining budgets, while small models trained on importance sampled datasets
are attractive for large specialization budgets.