Ваш трансформер на самом деле линеен.Your Transformer is Secretly Linear
Этот документ раскрывает новую линейную характеристику, исключительную для декодеров трансформеров, включая модели, такие как GPT, LLaMA, OPT, BLOOM и другие. Мы анализируем преобразования вложений между последовательными слоями, раскрывая почти идеальное линейное отношение (оценка сходства Прокруста 0.99). Однако линейность уменьшается, когда компонент остатка удаляется из-за последовательно низкой нормы выхода слоя трансформера. Наши эксперименты показывают, что удаление или линейная аппроксимация некоторых наиболее линейных блоков трансформеров не оказывает значительного влияния на потери или производительность модели. Более того, в наших экспериментах по предварительному обучению на более маленьких моделях мы вводим регуляризацию на основе косинусного сходства с целью уменьшения линейности слоя. Эта регуляризация улучшает метрики производительности на бенчмарках, таких как Tiny Stories и SuperGLUE, а также успешно уменьшает линейность моделей. Это исследование вызывает сомнения в существующем понимании архитектур трансформеров, предполагая, что их функционирование может быть более линейным, чем ранее предполагалось.