ChatPaper.aiChatPaper

더 강력한 정규화 없는 트랜스포머

Stronger Normalization-Free Transformers

December 11, 2025
저자: Mingzhi Chen, Taiming Lu, Jiachen Zhu, Mingjie Sun, Zhuang Liu
cs.AI

초록

정규화 계층이 오랫동안 딥러닝 아키텍처의 필수 구성 요소로 여겨져 왔지만, 최근 도입된 Dynamic Tanh(DyT)는 대안이 가능함을 입증했습니다. 점별 함수인 DyT는 안정적인 수렴을 위해 극단값을 제한하며 정규화 수준의 성능을 달성하는데, 본 연구는 이를 능가할 수 있는 함수 설계를 더욱 탐구합니다. 우리는 먼저 점별 함수의 내재적 특성이 학습과 성능에 어떻게 영향을 미치는지 연구합니다. 이러한 발견을 바탕으로 보다 효과적인 함수 설계를 위한 대규모 탐색을 수행합니다. 이 탐색 과정을 통해 우리는 Derf(x) = erf(αx + s)를 소개합니다. 여기서 erf(x)는 재조정된 가우시안 누적 분포 함수이며, 이를 가장 우수한 성능을 보이는 설계로 확인했습니다. Derf는 시각(이미지 인식 및 생성), 음성 표현, DNA 시퀀스 모델링 등 다양한 영역에서 LayerNorm, RMSNorm, DyT를 능가하는 성능을 보입니다. 우리의 연구 결과는 Derf의 성능 향상이 더 강력한 적합 능력보다는 향상된 일반화 능력에서 비롯된다는 것을 시사합니다. 그 간결함과 우수한 성능으로 인해 Derf는 정규화가 불필요한 Transformer 아키텍처를 위한 실용적인 선택지가 됩니다.
English
Although normalization layers have long been viewed as indispensable components of deep learning architectures, the recent introduction of Dynamic Tanh (DyT) has demonstrated that alternatives are possible. The point-wise function DyT constrains extreme values for stable convergence and reaches normalization-level performance; this work seeks further for function designs that can surpass it. We first study how the intrinsic properties of point-wise functions influence training and performance. Building on these findings, we conduct a large-scale search for a more effective function design. Through this exploration, we introduce Derf(x) = erf(αx + s), where erf(x) is the rescaled Gaussian cumulative distribution function, and identify it as the most performant design. Derf outperforms LayerNorm, RMSNorm, and DyT across a wide range of domains, including vision (image recognition and generation), speech representation, and DNA sequence modeling. Our findings suggest that the performance gains of Derf largely stem from its improved generalization rather than stronger fitting capacity. Its simplicity and stronger performance make Derf a practical choice for normalization-free Transformer architectures.
PDF61December 13, 2025