Ваш трансформер на самом деле линеен.
Your Transformer is Secretly Linear
May 19, 2024
Авторы: Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov
cs.AI
Аннотация
Этот документ раскрывает новую линейную характеристику, исключительную для декодеров трансформеров, включая модели, такие как GPT, LLaMA, OPT, BLOOM и другие. Мы анализируем преобразования вложений между последовательными слоями, раскрывая почти идеальное линейное отношение (оценка сходства Прокруста 0.99). Однако линейность уменьшается, когда компонент остатка удаляется из-за последовательно низкой нормы выхода слоя трансформера. Наши эксперименты показывают, что удаление или линейная аппроксимация некоторых наиболее линейных блоков трансформеров не оказывает значительного влияния на потери или производительность модели. Более того, в наших экспериментах по предварительному обучению на более маленьких моделях мы вводим регуляризацию на основе косинусного сходства с целью уменьшения линейности слоя. Эта регуляризация улучшает метрики производительности на бенчмарках, таких как Tiny Stories и SuperGLUE, а также успешно уменьшает линейность моделей. Это исследование вызывает сомнения в существующем понимании архитектур трансформеров, предполагая, что их функционирование может быть более линейным, чем ранее предполагалось.
English
This paper reveals a novel linear characteristic exclusive to transformer
decoders, including models such as GPT, LLaMA, OPT, BLOOM and others. We
analyze embedding transformations between sequential layers, uncovering a
near-perfect linear relationship (Procrustes similarity score of 0.99).
However, linearity decreases when the residual component is removed due to a
consistently low output norm of the transformer layer. Our experiments show
that removing or linearly approximating some of the most linear blocks of
transformers does not affect significantly the loss or model performance.
Moreover, in our pretraining experiments on smaller models we introduce a
cosine-similarity-based regularization, aimed at reducing layer linearity. This
regularization improves performance metrics on benchmarks like Tiny Stories and
SuperGLUE and as well successfully decreases the linearity of the models. This
study challenges the existing understanding of transformer architectures,
suggesting that their operation may be more linear than previously assumed.