Frac-Connections: Extensión Fraccional de Hiperconexiones
Frac-Connections: Fractional Extension of Hyper-Connections
March 18, 2025
Autores: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
Resumen
Las conexiones residuales son fundamentales en las arquitecturas modernas de aprendizaje profundo, ya que permiten el entrenamiento de redes muy profundas al mitigar el problema del gradiente desvanecido. Las Hiper-Conexiones generalizaron recientemente las conexiones residuales al introducir múltiples intensidades de conexión en diferentes profundidades, abordando así el efecto de balancín entre el gradiente desvanecido y el colapso de la representación. Sin embargo, las Hiper-Conexiones aumentan los costos de acceso a memoria al expandir el ancho de los estados ocultos. En este artículo, proponemos Frac-Conexiones, un enfoque novedoso que divide los estados ocultos en múltiples partes en lugar de expandir su ancho. Las Frac-Conexiones conservan parcialmente los beneficios de las Hiper-Conexiones mientras reducen el consumo de memoria. Para validar su eficacia, realizamos experimentos a gran escala en tareas de lenguaje, siendo el más grande un modelo MoE de 7B entrenado con hasta 3T tokens, demostrando que las Frac-Conexiones superan significativamente a las conexiones residuales.
English
Residual connections are central to modern deep learning architectures,
enabling the training of very deep networks by mitigating gradient vanishing.
Hyper-Connections recently generalized residual connections by introducing
multiple connection strengths at different depths, thereby addressing the
seesaw effect between gradient vanishing and representation collapse. However,
Hyper-Connections increase memory access costs by expanding the width of hidden
states. In this paper, we propose Frac-Connections, a novel approach that
divides hidden states into multiple parts rather than expanding their width.
Frac-Connections retain partial benefits of Hyper-Connections while reducing
memory consumption. To validate their effectiveness, we conduct large-scale
experiments on language tasks, with the largest being a 7B MoE model trained on
up to 3T tokens, demonstrating that Frac-Connections significantly outperform
residual connections.Summary
AI-Generated Summary