ChatPaper.aiChatPaper

Je Transformer is in wezen lineair

Your Transformer is Secretly Linear

May 19, 2024
Auteurs: Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
cs.AI

Samenvatting

Dit artikel onthult een nieuw lineair kenmerk dat exclusief is voor transformerdecoders, waaronder modellen zoals GPT, LLaMA, OPT, BLOOM en andere. We analyseren de embeddingtransformaties tussen opeenvolgende lagen en ontdekken een bijna perfecte lineaire relatie (Procrustes-gelijkvormigheidsscore van 0,99). De lineariteit neemt echter af wanneer de residuele component wordt verwijderd vanwege een consistent lage uitgangsnorm van de transformatorlaag. Onze experimenten tonen aan dat het verwijderen of lineair benaderen van enkele van de meest lineaire blokken van transformatoren de verliesfunctie of modelprestaties niet significant beïnvloedt. Bovendien introduceren we in onze pretrainingexperimenten op kleinere modellen een op cosinus-gelijkenis gebaseerde regularisatie, gericht op het verminderen van de lineariteit van de lagen. Deze regularisatie verbetert de prestatiemetingen op benchmarks zoals Tiny Stories en SuperGLUE en vermindert ook succesvol de lineariteit van de modellen. Deze studie daagt het bestaande begrip van transformatorarchitecturen uit en suggereert dat hun werking mogelijk lineairer is dan eerder werd aangenomen.
English
This paper reveals a novel linear characteristic exclusive to transformer decoders, including models such as GPT, LLaMA, OPT, BLOOM and others. We analyze embedding transformations between sequential layers, uncovering a near-perfect linear relationship (Procrustes similarity score of 0.99). However, linearity decreases when the residual component is removed due to a consistently low output norm of the transformer layer. Our experiments show that removing or linearly approximating some of the most linear blocks of transformers does not affect significantly the loss or model performance. Moreover, in our pretraining experiments on smaller models we introduce a cosine-similarity-based regularization, aimed at reducing layer linearity. This regularization improves performance metrics on benchmarks like Tiny Stories and SuperGLUE and as well successfully decreases the linearity of the models. This study challenges the existing understanding of transformer architectures, suggesting that their operation may be more linear than previously assumed.
PDF15720December 15, 2024