LoGAH: Vorhersage von 774-Millionen-Parameter-Transformern unter Verwendung von Graph-Hypernetzwerken mit 1/100 Parametern.
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters
May 25, 2024
papers.authors: Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu
cs.AI
papers.abstract
Eine gute Initialisierung von Deep-Learning-Modellen ist entscheidend, da sie dazu beitragen kann, dass sie besser und schneller konvergieren. Das Vortrainieren großer Modelle ist jedoch für viele Forscher nicht erschwinglich, was eine gewünschte Vorhersage für die Anfangsparameter heutzutage notwendiger macht. Graph Hypernetworks (GHNs), ein Ansatz zur Vorhersage von Modellparametern, haben kürzlich eine starke Leistung bei der Initialisierung großer Vision-Modelle gezeigt. Leider beruht die Vorhersage von Parametern sehr breiter Netzwerke darauf, kleine Parameterabschnitte mehrmals zu kopieren und erfordert eine extrem große Anzahl von Parametern zur Unterstützung der vollständigen Vorhersage, was ihre praktische Anwendung erheblich behindert. Um diese Einschränkung zu überwinden, schlagen wir LoGAH (Low-rank GrAph Hypernetworks) vor, ein GHN mit einem Niedrigrang-Parameterdecoder, der sich auf deutlich breitere Netzwerke ausdehnt, ohne einen übermäßigen Anstieg der Parameter wie bei früheren Versuchen zu erfordern. LoGAH ermöglicht es uns, die Parameter von 774 Millionen großen neuronalen Netzwerken auf eine speichereffiziente Weise vorherzusagen. Wir zeigen, dass Vision- und Sprachmodelle (d.h. ViT und GPT-2), die mit LoGAH initialisiert wurden, eine bessere Leistung erzielen als solche, die zufällig oder mit vorhandenen Hypernetworks initialisiert wurden. Darüber hinaus zeigen wir vielversprechende Transferlernergebnisse bezüglich des Trainings von LoGAH auf kleinen Datensätzen und der Verwendung der vorhergesagten Parameter zur Initialisierung für größere Aufgaben. Wir stellen den Code unter https://github.com/Blackzxy/LoGAH zur Verfügung.
English
A good initialization of deep learning models is essential since it can help
them converge better and faster. However, pretraining large models is
unaffordable for many researchers, which makes a desired prediction for initial
parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to
predicting model parameters, have recently shown strong performance in
initializing large vision models. Unfortunately, predicting parameters of very
wide networks relies on copying small chunks of parameters multiple times and
requires an extremely large number of parameters to support full prediction,
which greatly hinders its adoption in practice. To address this limitation, we
propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter
decoder that expands to significantly wider networks without requiring as
excessive increase of parameters as in previous attempts. LoGAH allows us to
predict the parameters of 774-million large neural networks in a
memory-efficient manner. We show that vision and language models (i.e., ViT and
GPT-2) initialized with LoGAH achieve better performance than those initialized
randomly or using existing hypernetworks. Furthermore, we show promising
transfer learning results w.r.t. training LoGAH on small datasets and using the
predicted parameters to initialize for larger tasks. We provide the codes in
https://github.com/Blackzxy/LoGAH .