ChatPaper.aiChatPaper

Transformadores Más Fuertes Sin Normalización

Stronger Normalization-Free Transformers

December 11, 2025
Autores: Mingzhi Chen, Taiming Lu, Jiachen Zhu, Mingjie Sun, Zhuang Liu
cs.AI

Resumen

Aunque las capas de normalización han sido consideradas durante mucho tiempo componentes indispensables en las arquitecturas de aprendizaje profundo, la reciente introducción de Dynamic Tanh (DyT) ha demostrado que existen alternativas posibles. La función puntual DyT restringe los valores extremos para lograr una convergencia estable y alcanza un rendimiento comparable al de la normalización; este trabajo busca avanzar hacia diseños de funciones que puedan superarla. Primero estudiamos cómo las propiedades intrínsecas de las funciones puntuales influyen en el entrenamiento y el rendimiento. Sobre la base de estos hallazgos, realizamos una búsqueda a gran escala de un diseño de función más efectivo. A través de esta exploración, presentamos Derf(x) = erf(αx + s), donde erf(x) es la función de distribución acumulativa gaussiana reescalada, y la identificamos como el diseño de mayor rendimiento. Derf supera a LayerNorm, RMSNorm y DyT en una amplia gama de dominios, incluyendo visión (reconocimiento y generación de imágenes), representación del habla y modelado de secuencias de ADN. Nuestros hallazgos sugieren que las mejoras de rendimiento de Derf provienen en gran medida de su mejor generalización, más que de una mayor capacidad de ajuste. Su simplicidad y mayor rendimiento convierten a Derf en una opción práctica para arquitecturas Transformer libres de normalización.
English
Although normalization layers have long been viewed as indispensable components of deep learning architectures, the recent introduction of Dynamic Tanh (DyT) has demonstrated that alternatives are possible. The point-wise function DyT constrains extreme values for stable convergence and reaches normalization-level performance; this work seeks further for function designs that can surpass it. We first study how the intrinsic properties of point-wise functions influence training and performance. Building on these findings, we conduct a large-scale search for a more effective function design. Through this exploration, we introduce Derf(x) = erf(αx + s), where erf(x) is the rescaled Gaussian cumulative distribution function, and identify it as the most performant design. Derf outperforms LayerNorm, RMSNorm, and DyT across a wide range of domains, including vision (image recognition and generation), speech representation, and DNA sequence modeling. Our findings suggest that the performance gains of Derf largely stem from its improved generalization rather than stronger fitting capacity. Its simplicity and stronger performance make Derf a practical choice for normalization-free Transformer architectures.
PDF61December 13, 2025