Frac-Connections: Дробное расширение гипер-соединений

Аннотация

Остаточные соединения являются ключевым элементом современных архитектур глубокого обучения, позволяя обучать очень глубокие сети за счет смягчения проблемы исчезающих градиентов. Гипер-соединения недавно обобщили остаточные соединения, введя множественные коэффициенты связи на разных глубинах, тем самым устраняя эффект "качелей" между исчезающими градиентами и коллапсом представлений. Однако Гипер-соединения увеличивают затраты на доступ к памяти за счет расширения ширины скрытых состояний. В данной работе мы предлагаем Frac-соединения — новый подход, который разделяет скрытые состояния на несколько частей вместо расширения их ширины. Frac-соединения сохраняют часть преимуществ Гипер-соединений, одновременно снижая потребление памяти. Для проверки их эффективности мы проводим масштабные эксперименты на языковых задачах, включая обучение модели MoE с 7 миллиардами параметров на 3 триллионах токенов, демонстрируя, что Frac-соединения значительно превосходят остаточные соединения.

English

Residual connections are central to modern deep learning architectures, enabling the training of very deep networks by mitigating gradient vanishing. Hyper-Connections recently generalized residual connections by introducing multiple connection strengths at different depths, thereby addressing the seesaw effect between gradient vanishing and representation collapse. However, Hyper-Connections increase memory access costs by expanding the width of hidden states. In this paper, we propose Frac-Connections, a novel approach that divides hidden states into multiple parts rather than expanding their width. Frac-Connections retain partial benefits of Hyper-Connections while reducing memory consumption. To validate their effectiveness, we conduct large-scale experiments on language tasks, with the largest being a 7B MoE model trained on up to 3T tokens, demonstrating that Frac-Connections significantly outperform residual connections.

Frac-Connections: Дробное расширение гипер-соединений

Frac-Connections: Fractional Extension of Hyper-Connections

Аннотация

Support