Трансформеры без нормализацииTransformers without Normalization
Слои нормализации повсеместно используются в современных нейронных сетях и долгое время считались незаменимыми. В данной работе демонстрируется, что трансформеры без нормализации могут достичь такой же или даже лучшей производительности с помощью удивительно простого метода. Мы представляем Dynamic Tanh (DyT) — поэлементную операцию DyT(x) = tanh(alpha x), которая может заменить слои нормализации в трансформерах. DyT вдохновлен наблюдением, что нормализация слоев в трансформерах часто создает S-образные зависимости между входом и выходом, напоминающие функцию tanh. Благодаря использованию DyT, трансформеры без нормализации могут соответствовать или превосходить производительность своих нормализованных аналогов, в большинстве случаев без необходимости настройки гиперпараметров. Мы подтверждаем эффективность трансформеров с DyT в различных задачах, начиная от распознавания и генерации, до обучения с учителем и самообучения, а также в моделях компьютерного зрения и обработки естественного языка. Эти результаты ставят под сомнение традиционное представление о том, что слои нормализации являются обязательными в современных нейронных сетях, и предлагают новые взгляды на их роль в глубоких сетях.