ChatPaper.aiChatPaper

Modelos de Lenguaje Especializados con Inferencia Económica a partir de Datos Limitados de un Dominio

Specialized Language Models with Cheap Inference from Limited Domain Data

February 2, 2024
Autores: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
cs.AI

Resumen

Los modelos de lenguaje a gran escala han surgido como una herramienta versátil, pero son difíciles de aplicar a tareas que carecen de grandes presupuestos de inferencia y grandes conjuntos de entrenamiento en el dominio específico. Este trabajo formaliza estas restricciones y distingue cuatro variables importantes: el presupuesto de preentrenamiento (para entrenar antes de conocer el dominio objetivo), el presupuesto de especialización (para entrenar después de conocer el dominio objetivo), el presupuesto de inferencia y el tamaño del conjunto de entrenamiento en el dominio. En estos escenarios, comparamos diferentes enfoques de la literatura de aprendizaje automático. Limitados por el costo de inferencia, encontramos alternativas mejores a la práctica estándar de entrenar modelos de transformadores muy grandes sin modificaciones. En particular, demostramos que las hiper-redes y las mezclas de expertos tienen mejor perplejidad para grandes presupuestos de preentrenamiento, mientras que los modelos pequeños entrenados en conjuntos de datos muestreados por importancia son atractivos para grandes presupuestos de especialización.
English
Large language models have emerged as a versatile tool but are challenging to apply to tasks lacking large inference budgets and large in-domain training sets. This work formalizes these constraints and distinguishes four important variables: the pretraining budget (for training before the target domain is known), the specialization budget (for training after the target domain is known), the inference budget, and the in-domain training set size. Across these settings, we compare different approaches from the machine learning literature. Limited by inference cost, we find better alternatives to the standard practice of training very large vanilla transformer models. In particular, we show that hyper-networks and mixture of experts have better perplexity for large pretraining budgets, while small models trained on importance sampled datasets are attractive for large specialization budgets.
PDF482December 15, 2024