Frac-Connections : Extension fractionnaire des hyper-connexions
Frac-Connections: Fractional Extension of Hyper-Connections
March 18, 2025
Auteurs: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
Résumé
Les connexions résiduelles sont au cœur des architectures modernes d'apprentissage profond, permettant l'entraînement de réseaux très profonds en atténuant le problème de disparition du gradient. Les Hyper-Connexions ont récemment généralisé les connexions résiduelles en introduisant plusieurs forces de connexion à différentes profondeurs, abordant ainsi l'effet de bascule entre la disparition du gradient et l'effondrement de la représentation. Cependant, les Hyper-Connexions augmentent les coûts d'accès à la mémoire en élargissant la largeur des états cachés. Dans cet article, nous proposons les Frac-Connexions, une approche novatrice qui divise les états cachés en plusieurs parties plutôt que d'en augmenter la largeur. Les Frac-Connexions conservent une partie des avantages des Hyper-Connexions tout en réduisant la consommation de mémoire. Pour valider leur efficacité, nous menons des expériences à grande échelle sur des tâches de traitement du langage, la plus importante étant un modèle MoE de 7B entraîné sur jusqu'à 3T de tokens, démontrant que les Frac-Connexions surpassent significativement les connexions résiduelles.
English
Residual connections are central to modern deep learning architectures,
enabling the training of very deep networks by mitigating gradient vanishing.
Hyper-Connections recently generalized residual connections by introducing
multiple connection strengths at different depths, thereby addressing the
seesaw effect between gradient vanishing and representation collapse. However,
Hyper-Connections increase memory access costs by expanding the width of hidden
states. In this paper, we propose Frac-Connections, a novel approach that
divides hidden states into multiple parts rather than expanding their width.
Frac-Connections retain partial benefits of Hyper-Connections while reducing
memory consumption. To validate their effectiveness, we conduct large-scale
experiments on language tasks, with the largest being a 7B MoE model trained on
up to 3T tokens, demonstrating that Frac-Connections significantly outperform
residual connections.Summary
AI-Generated Summary