Transformadores sin NormalizaciónTransformers without Normalization
Las capas de normalización son omnipresentes en las redes neuronales modernas y durante mucho tiempo se han considerado esenciales. Este trabajo demuestra que los Transformers sin normalización pueden lograr el mismo o mejor rendimiento utilizando una técnica notablemente simple. Introducimos Dynamic Tanh (DyT), una operación elemento por elemento DyT(x) = tanh(alpha x), como un reemplazo directo de las capas de normalización en Transformers. DyT se inspira en la observación de que la normalización de capas en Transformers a menudo produce mapeos entrada-salida en forma de S, similares a tanh. Al incorporar DyT, los Transformers sin normalización pueden igualar o superar el rendimiento de sus contrapartes normalizadas, en su mayoría sin ajuste de hiperparámetros. Validamos la efectividad de los Transformers con DyT en diversos entornos, que van desde reconocimiento hasta generación, aprendizaje supervisado hasta auto-supervisado, y modelos de visión por computadora hasta modelos de lenguaje. Estos hallazgos desafían la comprensión convencional de que las capas de normalización son indispensables en las redes neuronales modernas, y ofrecen nuevas perspectivas sobre su papel en las redes profundas.