Expansions composables préservant les fonctions pour les architectures Transformer
Composable Function-preserving Expansions for Transformer Architectures
August 11, 2023
Auteurs: Andrea Gesmundo, Kaitlin Maile
cs.AI
Résumé
L'entraînement de réseaux de neurones à la pointe de la technologie nécessite un coût élevé en termes de calcul et de temps. L'échelle des modèles est reconnue comme un facteur critique pour atteindre et améliorer l'état de l'art. Augmenter l'échelle d'un réseau de neurones nécessite généralement de repartir de zéro en initialisant aléatoirement tous les paramètres du modèle, car cela implique un changement des paramètres de l'architecture qui ne permet pas un transfert direct des connaissances des modèles de plus petite taille. Dans ce travail, nous proposons six transformations composables pour augmenter progressivement la taille des réseaux de neurones basés sur des transformateurs tout en préservant leur fonctionnalité, permettant ainsi d'étendre la capacité du modèle selon les besoins. Nous fournissons une preuve de préservation exacte de la fonction sous des contraintes d'initialisation minimales pour chaque transformation. Les méthodes proposées pourraient permettre des pipelines d'entraînement efficaces pour des modèles plus grands et plus puissants en élargissant progressivement l'architecture tout au long de l'entraînement.
English
Training state-of-the-art neural networks requires a high cost in terms of
compute and time. Model scale is recognized to be a critical factor to achieve
and improve the state-of-the-art. Increasing the scale of a neural network
normally requires restarting from scratch by randomly initializing all the
parameters of the model, as this implies a change of architecture's parameters
that does not allow for a straightforward transfer of knowledge from smaller
size models. In this work, we propose six composable transformations to
incrementally increase the size of transformer-based neural networks while
preserving functionality, allowing to expand the capacity of the model as
needed. We provide proof of exact function preservation under minimal
initialization constraints for each transformation. The proposed methods may
enable efficient training pipelines for larger and more powerful models by
progressively expanding the architecture throughout training.