Frac-Connections: Дробное расширение гипер-соединений
Frac-Connections: Fractional Extension of Hyper-Connections
March 18, 2025
Авторы: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
Аннотация
Остаточные соединения являются ключевым элементом современных архитектур глубокого обучения, позволяя обучать очень глубокие сети за счет смягчения проблемы исчезающих градиентов. Гипер-соединения недавно обобщили остаточные соединения, введя множественные коэффициенты связи на разных глубинах, тем самым устраняя эффект "качелей" между исчезающими градиентами и коллапсом представлений. Однако Гипер-соединения увеличивают затраты на доступ к памяти за счет расширения ширины скрытых состояний. В данной работе мы предлагаем Frac-соединения — новый подход, который разделяет скрытые состояния на несколько частей вместо расширения их ширины. Frac-соединения сохраняют часть преимуществ Гипер-соединений, одновременно снижая потребление памяти. Для проверки их эффективности мы проводим масштабные эксперименты на языковых задачах, включая обучение модели MoE с 7 миллиардами параметров на 3 триллионах токенов, демонстрируя, что Frac-соединения значительно превосходят остаточные соединения.
English
Residual connections are central to modern deep learning architectures,
enabling the training of very deep networks by mitigating gradient vanishing.
Hyper-Connections recently generalized residual connections by introducing
multiple connection strengths at different depths, thereby addressing the
seesaw effect between gradient vanishing and representation collapse. However,
Hyper-Connections increase memory access costs by expanding the width of hidden
states. In this paper, we propose Frac-Connections, a novel approach that
divides hidden states into multiple parts rather than expanding their width.
Frac-Connections retain partial benefits of Hyper-Connections while reducing
memory consumption. To validate their effectiveness, we conduct large-scale
experiments on language tasks, with the largest being a 7B MoE model trained on
up to 3T tokens, demonstrating that Frac-Connections significantly outperform
residual connections.Summary
AI-Generated Summary