Frac-Connections: Extensión Fraccional de Hiperconexiones

Resumen

Las conexiones residuales son fundamentales en las arquitecturas modernas de aprendizaje profundo, ya que permiten el entrenamiento de redes muy profundas al mitigar el problema del gradiente desvanecido. Las Hiper-Conexiones generalizaron recientemente las conexiones residuales al introducir múltiples intensidades de conexión en diferentes profundidades, abordando así el efecto de balancín entre el gradiente desvanecido y el colapso de la representación. Sin embargo, las Hiper-Conexiones aumentan los costos de acceso a memoria al expandir el ancho de los estados ocultos. En este artículo, proponemos Frac-Conexiones, un enfoque novedoso que divide los estados ocultos en múltiples partes en lugar de expandir su ancho. Las Frac-Conexiones conservan parcialmente los beneficios de las Hiper-Conexiones mientras reducen el consumo de memoria. Para validar su eficacia, realizamos experimentos a gran escala en tareas de lenguaje, siendo el más grande un modelo MoE de 7B entrenado con hasta 3T tokens, demostrando que las Frac-Conexiones superan significativamente a las conexiones residuales.

English

Residual connections are central to modern deep learning architectures, enabling the training of very deep networks by mitigating gradient vanishing. Hyper-Connections recently generalized residual connections by introducing multiple connection strengths at different depths, thereby addressing the seesaw effect between gradient vanishing and representation collapse. However, Hyper-Connections increase memory access costs by expanding the width of hidden states. In this paper, we propose Frac-Connections, a novel approach that divides hidden states into multiple parts rather than expanding their width. Frac-Connections retain partial benefits of Hyper-Connections while reducing memory consumption. To validate their effectiveness, we conduct large-scale experiments on language tasks, with the largest being a 7B MoE model trained on up to 3T tokens, demonstrating that Frac-Connections significantly outperform residual connections.

Frac-Connections: Extensión Fraccional de Hiperconexiones

Frac-Connections: Fractional Extension of Hyper-Connections

Resumen

Support