ChatPaper.aiChatPaper

Modelos de Linguagem Especializados com Inferência Eficiente a partir de Dados Limitados de Domínio

Specialized Language Models with Cheap Inference from Limited Domain Data

February 2, 2024
Autores: David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
cs.AI

Resumo

Modelos de linguagem de grande escala surgiram como uma ferramenta versátil, mas são desafiadores de aplicar em tarefas que carecem de grandes orçamentos de inferência e grandes conjuntos de treinamento no domínio específico. Este trabalho formaliza essas restrições e distingue quatro variáveis importantes: o orçamento de pré-treinamento (para treinamento antes que o domínio alvo seja conhecido), o orçamento de especialização (para treinamento após o domínio alvo ser conhecido), o orçamento de inferência e o tamanho do conjunto de treinamento no domínio específico. Em meio a essas configurações, comparamos diferentes abordagens da literatura de aprendizado de máquina. Limitados pelo custo de inferência, encontramos alternativas melhores à prática padrão de treinar modelos muito grandes de transformadores convencionais. Em particular, demonstramos que hiper-redes e misturas de especialistas apresentam melhor perplexidade para grandes orçamentos de pré-treinamento, enquanto modelos pequenos treinados em conjuntos de dados amostrados por importância são atraentes para grandes orçamentos de especialização.
English
Large language models have emerged as a versatile tool but are challenging to apply to tasks lacking large inference budgets and large in-domain training sets. This work formalizes these constraints and distinguishes four important variables: the pretraining budget (for training before the target domain is known), the specialization budget (for training after the target domain is known), the inference budget, and the in-domain training set size. Across these settings, we compare different approaches from the machine learning literature. Limited by inference cost, we find better alternatives to the standard practice of training very large vanilla transformer models. In particular, we show that hyper-networks and mixture of experts have better perplexity for large pretraining budgets, while small models trained on importance sampled datasets are attractive for large specialization budgets.
PDF472December 15, 2024