Frac-Connections: 하이퍼 연결의 분수적 확장
Frac-Connections: Fractional Extension of Hyper-Connections
March 18, 2025
저자: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
초록
잔차 연결(Residual Connections)은 현대 딥러닝 아키텍처의 핵심 요소로, 그래디언트 소실 문제를 완화하여 매우 깊은 네트워크의 학습을 가능하게 합니다. 최근 하이퍼 연결(Hyper-Connections)은 서로 다른 깊이에서 다중 연결 강도를 도입함으로써 잔차 연결을 일반화하였고, 이를 통해 그래디언트 소실과 표현 붕괴 사이의 시소 효과를 해결했습니다. 그러나 하이퍼 연결은 은닉 상태의 폭을 확장함으로써 메모리 접근 비용을 증가시킵니다. 본 논문에서는 은닉 상태의 폭을 확장하는 대신 이를 여러 부분으로 나누는 새로운 접근 방식인 프랙 연결(Frac-Connections)을 제안합니다. 프랙 연결은 하이퍼 연결의 부분적인 이점을 유지하면서도 메모리 소비를 줄입니다. 그 효과를 검증하기 위해, 언어 작업에 대한 대규모 실험을 수행하였으며, 최대 3조 개의 토큰으로 학습된 70억 개의 전문가 혼합(MoE) 모델을 포함한 실험에서 프랙 연결이 잔차 연결을 크게 능가함을 입증했습니다.
English
Residual connections are central to modern deep learning architectures,
enabling the training of very deep networks by mitigating gradient vanishing.
Hyper-Connections recently generalized residual connections by introducing
multiple connection strengths at different depths, thereby addressing the
seesaw effect between gradient vanishing and representation collapse. However,
Hyper-Connections increase memory access costs by expanding the width of hidden
states. In this paper, we propose Frac-Connections, a novel approach that
divides hidden states into multiple parts rather than expanding their width.
Frac-Connections retain partial benefits of Hyper-Connections while reducing
memory consumption. To validate their effectiveness, we conduct large-scale
experiments on language tasks, with the largest being a 7B MoE model trained on
up to 3T tokens, demonstrating that Frac-Connections significantly outperform
residual connections.Summary
AI-Generated Summary