Votre Transformer est Secrètement LinéaireYour Transformer is Secretly Linear
Cet article révèle une caractéristique linéaire inédite propre aux décodeurs de type transformer, incluant des modèles tels que GPT, LLaMA, OPT, BLOOM et d'autres. Nous analysons les transformations d'embeddings entre les couches séquentielles, mettant en évidence une relation linéaire quasi parfaite (score de similarité de Procrustes de 0,99). Cependant, la linéarité diminue lorsque la composante résiduelle est supprimée en raison d'une norme de sortie systématiquement faible de la couche transformer. Nos expériences montrent que la suppression ou l'approximation linéaire de certains des blocs les plus linéaires des transformers n'affecte pas significativement la perte ou les performances du modèle. Par ailleurs, dans nos expériences de pré-entraînement sur des modèles plus petits, nous introduisons une régularisation basée sur la similarité cosinus, visant à réduire la linéarité des couches. Cette régularisation améliore les métriques de performance sur des benchmarks comme Tiny Stories et SuperGLUE, tout en réduisant efficacement la linéarité des modèles. Cette étude remet en question la compréhension actuelle des architectures transformer, suggérant que leur fonctionnement pourrait être plus linéaire que ce qui était précédemment supposé.