Transformers sem NormalizaçãoTransformers without Normalization
Camadas de normalização são onipresentes em redes neurais modernas e há muito tempo são consideradas essenciais. Este trabalho demonstra que Transformers sem normalização podem alcançar o mesmo ou melhor desempenho usando uma técnica notavelmente simples. Introduzimos o Dynamic Tanh (DyT), uma operação elemento a elemento DyT(x) = tanh(alpha x), como uma substituição direta para camadas de normalização em Transformers. O DyT é inspirado pela observação de que a normalização de camadas em Transformers frequentemente produz mapeamentos entrada-saída em forma de S, semelhantes à função tanh. Ao incorporar o DyT, Transformers sem normalização podem igualar ou superar o desempenho de suas contrapartes normalizadas, geralmente sem ajuste de hiperparâmetros. Validamos a eficácia de Transformers com DyT em diversas configurações, variando de reconhecimento a geração, aprendizado supervisionado a auto-supervisionado, e modelos de visão computacional a modelos de linguagem. Essas descobertas desafiam o entendimento convencional de que camadas de normalização são indispensáveis em redes neurais modernas e oferecem novos insights sobre seu papel em redes profundas.