ChatPaper.aiChatPaper

LoGAH: Previsione di Trasformatori da 774 Milioni di Parametri utilizzando Iperreti Grafiche con 1/100 dei Parametri

LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters

May 25, 2024
Autori: Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu
cs.AI

Abstract

Un buon inizializzazione dei modelli di deep learning è essenziale poiché può aiutarli a convergere meglio e più velocemente. Tuttavia, il pretraining di modelli di grandi dimensioni è proibitivo per molti ricercatori, rendendo più necessaria al giorno d'oggi una previsione accurata dei parametri iniziali. Le Graph HyperNetworks (GHN), un approccio per la previsione dei parametri dei modelli, hanno recentemente dimostrato prestazioni solide nell'inizializzazione di grandi modelli di visione. Sfortunatamente, la previsione dei parametri di reti molto ampie si basa sulla copia di piccoli blocchi di parametri più volte e richiede un numero estremamente elevato di parametri per supportare una previsione completa, il che ostacola notevolmente la sua adozione nella pratica. Per affrontare questa limitazione, proponiamo LoGAH (Low-rank GrAph Hypernetworks), una GHN con un decoder di parametri a basso rango che si espande a reti significativamente più ampie senza richiedere un aumento eccessivo dei parametri come nei tentativi precedenti. LoGAH ci consente di prevedere i parametri di reti neurali di 774 milioni di parametri in modo efficiente in termini di memoria. Mostriamo che i modelli di visione e linguaggio (ad esempio, ViT e GPT-2) inizializzati con LoGAH raggiungono prestazioni migliori rispetto a quelli inizializzati casualmente o utilizzando hypernetwork esistenti. Inoltre, mostriamo risultati promettenti nel transfer learning riguardo all'addestramento di LoGAH su piccoli dataset e all'uso dei parametri previsti per inizializzare task più grandi. Forniamo i codici su https://github.com/Blackzxy/LoGAH.
English
A good initialization of deep learning models is essential since it can help them converge better and faster. However, pretraining large models is unaffordable for many researchers, which makes a desired prediction for initial parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to predicting model parameters, have recently shown strong performance in initializing large vision models. Unfortunately, predicting parameters of very wide networks relies on copying small chunks of parameters multiple times and requires an extremely large number of parameters to support full prediction, which greatly hinders its adoption in practice. To address this limitation, we propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter decoder that expands to significantly wider networks without requiring as excessive increase of parameters as in previous attempts. LoGAH allows us to predict the parameters of 774-million large neural networks in a memory-efficient manner. We show that vision and language models (i.e., ViT and GPT-2) initialized with LoGAH achieve better performance than those initialized randomly or using existing hypernetworks. Furthermore, we show promising transfer learning results w.r.t. training LoGAH on small datasets and using the predicted parameters to initialize for larger tasks. We provide the codes in https://github.com/Blackzxy/LoGAH .
PDF112December 12, 2024