Découvrir les algorithmes de méso-optimisation dans les Transformers

papers.abstract

Les Transformers sont devenus le modèle dominant en apprentissage profond, mais la raison de leur performance supérieure reste mal comprise. Nous émettons ici l'hypothèse que la forte performance des Transformers découle d'un biais architectural en faveur de la méso-optimisation, un processus appris s'exécutant lors de la passe avant d'un modèle et consistant en deux étapes : (i) la construction d'un objectif d'apprentissage interne, et (ii) la recherche de sa solution correspondante via une optimisation. Pour tester cette hypothèse, nous avons rétro-conçu une série de Transformers autorégressifs entraînés sur des tâches simples de modélisation de séquences, révélant des algorithmes de méso-optimisation basés sur le gradient qui pilotent la génération des prédictions. De plus, nous montrons que l'algorithme d'optimisation appris lors de la passe avant peut être immédiatement réutilisé pour résoudre des tâches supervisées en few-shot, suggérant que la méso-optimisation pourrait sous-tendre les capacités d'apprentissage en contexte des grands modèles de langage. Enfin, nous proposons une nouvelle couche d'auto-attention, la méso-couche, qui résout explicitement et efficacement des problèmes d'optimisation spécifiés en contexte. Nous constatons que cette couche peut améliorer les performances dans des expériences synthétiques et préliminaires de modélisation du langage, renforçant notre hypothèse selon laquelle la méso-optimisation est une opération importante cachée dans les poids des Transformers entraînés.

English

Transformers have become the dominant model in deep learning, but the reason for their superior performance is poorly understood. Here, we hypothesize that the strong performance of Transformers stems from an architectural bias towards mesa-optimization, a learned process running within the forward pass of a model consisting of the following two steps: (i) the construction of an internal learning objective, and (ii) its corresponding solution found through optimization. To test this hypothesis, we reverse-engineer a series of autoregressive Transformers trained on simple sequence modeling tasks, uncovering underlying gradient-based mesa-optimization algorithms driving the generation of predictions. Moreover, we show that the learned forward-pass optimization algorithm can be immediately repurposed to solve supervised few-shot tasks, suggesting that mesa-optimization might underlie the in-context learning capabilities of large language models. Finally, we propose a novel self-attention layer, the mesa-layer, that explicitly and efficiently solves optimization problems specified in context. We find that this layer can lead to improved performance in synthetic and preliminary language modeling experiments, adding weight to our hypothesis that mesa-optimization is an important operation hidden within the weights of trained Transformers.

Découvrir les algorithmes de méso-optimisation dans les Transformers

Uncovering mesa-optimization algorithms in Transformers

papers.abstract

Support