Frac-Connections: Extensão Fracionária das Hiperconexões
Frac-Connections: Fractional Extension of Hyper-Connections
March 18, 2025
Autores: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
Resumo
As conexões residuais são centrais para as arquiteturas modernas de aprendizado profundo, permitindo o treinamento de redes muito profundas ao mitigar o desaparecimento do gradiente. As Hiper-Conexões recentemente generalizaram as conexões residuais ao introduzir múltiplas intensidades de conexão em diferentes profundidades, abordando assim o efeito gangorra entre o desaparecimento do gradiente e o colapso da representação. No entanto, as Hiper-Conexões aumentam os custos de acesso à memória ao expandir a largura dos estados ocultos. Neste artigo, propomos as Frac-Conexões, uma abordagem inovadora que divide os estados ocultos em múltiplas partes em vez de expandir sua largura. As Frac-Conexões mantêm parte dos benefícios das Hiper-Conexões enquanto reduzem o consumo de memória. Para validar sua eficácia, realizamos experimentos em larga escala em tarefas de linguagem, com o maior sendo um modelo MoE de 7B treinado em até 3T de tokens, demonstrando que as Frac-Conexões superam significativamente as conexões residuais.
English
Residual connections are central to modern deep learning architectures,
enabling the training of very deep networks by mitigating gradient vanishing.
Hyper-Connections recently generalized residual connections by introducing
multiple connection strengths at different depths, thereby addressing the
seesaw effect between gradient vanishing and representation collapse. However,
Hyper-Connections increase memory access costs by expanding the width of hidden
states. In this paper, we propose Frac-Connections, a novel approach that
divides hidden states into multiple parts rather than expanding their width.
Frac-Connections retain partial benefits of Hyper-Connections while reducing
memory consumption. To validate their effectiveness, we conduct large-scale
experiments on language tasks, with the largest being a 7B MoE model trained on
up to 3T tokens, demonstrating that Frac-Connections significantly outperform
residual connections.Summary
AI-Generated Summary