ChatPaper.aiChatPaper

Frac-Connections: Дробное расширение гипер-соединений

Frac-Connections: Fractional Extension of Hyper-Connections

March 18, 2025
Авторы: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI

Аннотация

Остаточные соединения являются ключевым элементом современных архитектур глубокого обучения, позволяя обучать очень глубокие сети за счет смягчения проблемы исчезающих градиентов. Гипер-соединения недавно обобщили остаточные соединения, введя множественные коэффициенты связи на разных глубинах, тем самым устраняя эффект "качелей" между исчезающими градиентами и коллапсом представлений. Однако Гипер-соединения увеличивают затраты на доступ к памяти за счет расширения ширины скрытых состояний. В данной работе мы предлагаем Frac-соединения — новый подход, который разделяет скрытые состояния на несколько частей вместо расширения их ширины. Frac-соединения сохраняют часть преимуществ Гипер-соединений, одновременно снижая потребление памяти. Для проверки их эффективности мы проводим масштабные эксперименты на языковых задачах, включая обучение модели MoE с 7 миллиардами параметров на 3 триллионах токенов, демонстрируя, что Frac-соединения значительно превосходят остаточные соединения.
English
Residual connections are central to modern deep learning architectures, enabling the training of very deep networks by mitigating gradient vanishing. Hyper-Connections recently generalized residual connections by introducing multiple connection strengths at different depths, thereby addressing the seesaw effect between gradient vanishing and representation collapse. However, Hyper-Connections increase memory access costs by expanding the width of hidden states. In this paper, we propose Frac-Connections, a novel approach that divides hidden states into multiple parts rather than expanding their width. Frac-Connections retain partial benefits of Hyper-Connections while reducing memory consumption. To validate their effectiveness, we conduct large-scale experiments on language tasks, with the largest being a 7B MoE model trained on up to 3T tokens, demonstrating that Frac-Connections significantly outperform residual connections.

Summary

AI-Generated Summary

PDF214March 19, 2025