Hiperconexões
Hyper-Connections
September 29, 2024
Autores: Defa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
Resumo
Apresentamos hiperconexões, um método simples, porém eficaz, que pode servir como uma alternativa às conexões residuais. Esta abordagem aborda especificamente as desvantagens comuns observadas em variantes de conexão residual, como o efeito gangorra entre o desaparecimento do gradiente e o colapso da representação. Teoricamente, as hiperconexões permitem que a rede ajuste a força das conexões entre características em diferentes profundidades e rearranje dinamicamente as camadas. Realizamos experimentos focados no pré-treinamento de grandes modelos de linguagem, incluindo modelos densos e esparsos, nos quais as hiperconexões mostram melhorias significativas de desempenho em relação às conexões residuais. Experimentos adicionais realizados em tarefas de visão também demonstram melhorias semelhantes. Antecipamos que este método será amplamente aplicável e benéfico em uma ampla gama de problemas de IA.
English
We present hyper-connections, a simple yet effective method that can serve as
an alternative to residual connections. This approach specifically addresses
common drawbacks observed in residual connection variants, such as the seesaw
effect between gradient vanishing and representation collapse. Theoretically,
hyper-connections allow the network to adjust the strength of connections
between features at different depths and dynamically rearrange layers. We
conduct experiments focusing on the pre-training of large language models,
including dense and sparse models, where hyper-connections show significant
performance improvements over residual connections. Additional experiments
conducted on vision tasks also demonstrate similar improvements. We anticipate
that this method will be broadly applicable and beneficial across a wide range
of AI problems.Summary
AI-Generated Summary