LoGAH: Predizendo Transformers de 774 Milhões de Parâmetros usando HiperRedes de Grafos com 1/100 dos Parâmetros

Resumo

Uma boa inicialização de modelos de aprendizado profundo é essencial, pois pode ajudá-los a convergir de forma melhor e mais rápida. No entanto, o pré-treinamento de modelos grandes é inviável para muitos pesquisadores, o que torna uma previsão desejada para parâmetros iniciais mais necessária atualmente. As Graph HyperNetworks (GHNs), uma abordagem para prever parâmetros de modelos, recentemente demonstraram um forte desempenho na inicialização de grandes modelos de visão. Infelizmente, a previsão de parâmetros de redes muito amplas depende da cópia de pequenos blocos de parâmetros várias vezes e requer um número extremamente grande de parâmetros para suportar a previsão completa, o que dificulta muito sua adoção na prática. Para abordar essa limitação, propomos o LoGAH (Low-rank GrAph Hypernetworks), uma GHN com um decodificador de parâmetros de baixa classificação que se expande para redes significativamente mais amplas sem exigir um aumento excessivo de parâmetros como em tentativas anteriores. O LoGAH nos permite prever os parâmetros de redes neurais grandes de 774 milhões de uma forma eficiente em termos de memória. Mostramos que modelos de visão e linguagem (ou seja, ViT e GPT-2) inicializados com LoGAH alcançam um desempenho melhor do que aqueles inicializados aleatoriamente ou usando hiper-redes existentes. Além disso, mostramos resultados promissores de aprendizado de transferência em relação ao treinamento do LoGAH em pequenos conjuntos de dados e ao uso dos parâmetros previstos para inicializar tarefas maiores. Fornecemos os códigos em https://github.com/Blackzxy/LoGAH.

English

A good initialization of deep learning models is essential since it can help them converge better and faster. However, pretraining large models is unaffordable for many researchers, which makes a desired prediction for initial parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to predicting model parameters, have recently shown strong performance in initializing large vision models. Unfortunately, predicting parameters of very wide networks relies on copying small chunks of parameters multiple times and requires an extremely large number of parameters to support full prediction, which greatly hinders its adoption in practice. To address this limitation, we propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter decoder that expands to significantly wider networks without requiring as excessive increase of parameters as in previous attempts. LoGAH allows us to predict the parameters of 774-million large neural networks in a memory-efficient manner. We show that vision and language models (i.e., ViT and GPT-2) initialized with LoGAH achieve better performance than those initialized randomly or using existing hypernetworks. Furthermore, we show promising transfer learning results w.r.t. training LoGAH on small datasets and using the predicted parameters to initialize for larger tasks. We provide the codes in https://github.com/Blackzxy/LoGAH .

LoGAH: Predizendo Transformers de 774 Milhões de Parâmetros usando HiperRedes de Grafos com 1/100 dos Parâmetros

LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters

Resumo

Support