LoGAH: Previsione di Trasformatori da 774 Milioni di Parametri utilizzando Iperreti Grafiche con 1/100 dei Parametri
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters
May 25, 2024
Autori: Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu
cs.AI
Abstract
Un buon inizializzazione dei modelli di deep learning è essenziale poiché può aiutarli a convergere meglio e più velocemente. Tuttavia, il pretraining di modelli di grandi dimensioni è proibitivo per molti ricercatori, rendendo più necessaria al giorno d'oggi una previsione accurata dei parametri iniziali. Le Graph HyperNetworks (GHN), un approccio per la previsione dei parametri dei modelli, hanno recentemente dimostrato prestazioni solide nell'inizializzazione di grandi modelli di visione. Sfortunatamente, la previsione dei parametri di reti molto ampie si basa sulla copia di piccoli blocchi di parametri più volte e richiede un numero estremamente elevato di parametri per supportare una previsione completa, il che ostacola notevolmente la sua adozione nella pratica. Per affrontare questa limitazione, proponiamo LoGAH (Low-rank GrAph Hypernetworks), una GHN con un decoder di parametri a basso rango che si espande a reti significativamente più ampie senza richiedere un aumento eccessivo dei parametri come nei tentativi precedenti. LoGAH ci consente di prevedere i parametri di reti neurali di 774 milioni di parametri in modo efficiente in termini di memoria. Mostriamo che i modelli di visione e linguaggio (ad esempio, ViT e GPT-2) inizializzati con LoGAH raggiungono prestazioni migliori rispetto a quelli inizializzati casualmente o utilizzando hypernetwork esistenti. Inoltre, mostriamo risultati promettenti nel transfer learning riguardo all'addestramento di LoGAH su piccoli dataset e all'uso dei parametri previsti per inizializzare task più grandi. Forniamo i codici su https://github.com/Blackzxy/LoGAH.
English
A good initialization of deep learning models is essential since it can help
them converge better and faster. However, pretraining large models is
unaffordable for many researchers, which makes a desired prediction for initial
parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to
predicting model parameters, have recently shown strong performance in
initializing large vision models. Unfortunately, predicting parameters of very
wide networks relies on copying small chunks of parameters multiple times and
requires an extremely large number of parameters to support full prediction,
which greatly hinders its adoption in practice. To address this limitation, we
propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter
decoder that expands to significantly wider networks without requiring as
excessive increase of parameters as in previous attempts. LoGAH allows us to
predict the parameters of 774-million large neural networks in a
memory-efficient manner. We show that vision and language models (i.e., ViT and
GPT-2) initialized with LoGAH achieve better performance than those initialized
randomly or using existing hypernetworks. Furthermore, we show promising
transfer learning results w.r.t. training LoGAH on small datasets and using the
predicted parameters to initialize for larger tasks. We provide the codes in
https://github.com/Blackzxy/LoGAH .