Modelos de Linguagem Especializados com Inferência Eficiente a partir de Dados Limitados de Domínio
Specialized Language Models with Cheap Inference from Limited Domain Data
February 2, 2024
Autores: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
cs.AI
Resumo
Modelos de linguagem de grande escala surgiram como uma ferramenta versátil, mas são desafiadores de aplicar em tarefas que carecem de grandes orçamentos de inferência e grandes conjuntos de treinamento no domínio específico. Este trabalho formaliza essas restrições e distingue quatro variáveis importantes: o orçamento de pré-treinamento (para treinamento antes que o domínio alvo seja conhecido), o orçamento de especialização (para treinamento após o domínio alvo ser conhecido), o orçamento de inferência e o tamanho do conjunto de treinamento no domínio específico. Em meio a essas configurações, comparamos diferentes abordagens da literatura de aprendizado de máquina. Limitados pelo custo de inferência, encontramos alternativas melhores à prática padrão de treinar modelos muito grandes de transformadores convencionais. Em particular, demonstramos que hiper-redes e misturas de especialistas apresentam melhor perplexidade para grandes orçamentos de pré-treinamento, enquanto modelos pequenos treinados em conjuntos de dados amostrados por importância são atraentes para grandes orçamentos de especialização.
English
Large language models have emerged as a versatile tool but are challenging to
apply to tasks lacking large inference budgets and large in-domain training
sets. This work formalizes these constraints and distinguishes four important
variables: the pretraining budget (for training before the target domain is
known), the specialization budget (for training after the target domain is
known), the inference budget, and the in-domain training set size. Across these
settings, we compare different approaches from the machine learning literature.
Limited by inference cost, we find better alternatives to the standard practice
of training very large vanilla transformer models. In particular, we show that
hyper-networks and mixture of experts have better perplexity for large
pretraining budgets, while small models trained on importance sampled datasets
are attractive for large specialization budgets.