ChatPaper.aiChatPaper

Frac-Connections: Estensione Frazionaria delle Iper-Connessioni

Frac-Connections: Fractional Extension of Hyper-Connections

March 18, 2025
Autori: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI

Abstract

Le connessioni residue sono fondamentali per le moderne architetture di deep learning, poiché consentono l'addestramento di reti molto profonde mitigando il problema della scomparsa del gradiente. Le Hyper-Connections hanno recentemente generalizzato le connessioni residue introducendo molteplici intensità di connessione a diverse profondità, affrontando così l'effetto altalenante tra la scomparsa del gradiente e il collasso della rappresentazione. Tuttavia, le Hyper-Connections aumentano i costi di accesso alla memoria espandendo la larghezza degli stati nascosti. In questo articolo, proponiamo le Frac-Connections, un approccio innovativo che divide gli stati nascosti in più parti anziché espanderne la larghezza. Le Frac-Connections mantengono parzialmente i vantaggi delle Hyper-Connections riducendo al contempo il consumo di memoria. Per validarne l'efficacia, abbiamo condotto esperimenti su larga scala su task linguistici, con il più grande modello da 7B MoE addestrato su fino a 3T token, dimostrando che le Frac-Connections superano significativamente le connessioni residue.
English
Residual connections are central to modern deep learning architectures, enabling the training of very deep networks by mitigating gradient vanishing. Hyper-Connections recently generalized residual connections by introducing multiple connection strengths at different depths, thereby addressing the seesaw effect between gradient vanishing and representation collapse. However, Hyper-Connections increase memory access costs by expanding the width of hidden states. In this paper, we propose Frac-Connections, a novel approach that divides hidden states into multiple parts rather than expanding their width. Frac-Connections retain partial benefits of Hyper-Connections while reducing memory consumption. To validate their effectiveness, we conduct large-scale experiments on language tasks, with the largest being a 7B MoE model trained on up to 3T tokens, demonstrating that Frac-Connections significantly outperform residual connections.
PDF214March 19, 2025