LoGAH: Predizendo Transformers de 774 Milhões de Parâmetros usando HiperRedes de Grafos com 1/100 dos Parâmetros
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters
May 25, 2024
Autores: Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu
cs.AI
Resumo
Uma boa inicialização de modelos de aprendizado profundo é essencial, pois pode ajudá-los a convergir de forma melhor e mais rápida. No entanto, o pré-treinamento de modelos grandes é inviável para muitos pesquisadores, o que torna uma previsão desejada para parâmetros iniciais mais necessária atualmente. As Graph HyperNetworks (GHNs), uma abordagem para prever parâmetros de modelos, recentemente demonstraram um forte desempenho na inicialização de grandes modelos de visão. Infelizmente, a previsão de parâmetros de redes muito amplas depende da cópia de pequenos blocos de parâmetros várias vezes e requer um número extremamente grande de parâmetros para suportar a previsão completa, o que dificulta muito sua adoção na prática. Para abordar essa limitação, propomos o LoGAH (Low-rank GrAph Hypernetworks), uma GHN com um decodificador de parâmetros de baixa classificação que se expande para redes significativamente mais amplas sem exigir um aumento excessivo de parâmetros como em tentativas anteriores. O LoGAH nos permite prever os parâmetros de redes neurais grandes de 774 milhões de uma forma eficiente em termos de memória. Mostramos que modelos de visão e linguagem (ou seja, ViT e GPT-2) inicializados com LoGAH alcançam um desempenho melhor do que aqueles inicializados aleatoriamente ou usando hiper-redes existentes. Além disso, mostramos resultados promissores de aprendizado de transferência em relação ao treinamento do LoGAH em pequenos conjuntos de dados e ao uso dos parâmetros previstos para inicializar tarefas maiores. Fornecemos os códigos em https://github.com/Blackzxy/LoGAH.
English
A good initialization of deep learning models is essential since it can help
them converge better and faster. However, pretraining large models is
unaffordable for many researchers, which makes a desired prediction for initial
parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to
predicting model parameters, have recently shown strong performance in
initializing large vision models. Unfortunately, predicting parameters of very
wide networks relies on copying small chunks of parameters multiple times and
requires an extremely large number of parameters to support full prediction,
which greatly hinders its adoption in practice. To address this limitation, we
propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter
decoder that expands to significantly wider networks without requiring as
excessive increase of parameters as in previous attempts. LoGAH allows us to
predict the parameters of 774-million large neural networks in a
memory-efficient manner. We show that vision and language models (i.e., ViT and
GPT-2) initialized with LoGAH achieve better performance than those initialized
randomly or using existing hypernetworks. Furthermore, we show promising
transfer learning results w.r.t. training LoGAH on small datasets and using the
predicted parameters to initialize for larger tasks. We provide the codes in
https://github.com/Blackzxy/LoGAH .