Iperconnessioni
Hyper-Connections
September 29, 2024
Autori: Defa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
Abstract
Presentiamo le iperconnessioni, un metodo semplice ma efficace che può fungere da alternativa alle connessioni residue. Questo approccio affronta specificamente i difetti comuni osservati nelle varianti delle connessioni residue, come l'effetto altalena tra scomparsa del gradiente e collasso della rappresentazione. Teoricamente, le iperconnessioni consentono alla rete di regolare la forza delle connessioni tra le caratteristiche a diverse profondità e di riorganizzare dinamicamente gli strati. Conduciamo esperimenti incentrati sul pre-training di grandi modelli linguistici, inclusi modelli densi e sparsi, dove le iperconnessioni mostrano significativi miglioramenti delle prestazioni rispetto alle connessioni residue. Ulteriori esperimenti condotti su compiti di visione dimostrano anche miglioramenti simili. Prevediamo che questo metodo sarà ampiamente applicabile e vantaggioso in una vasta gamma di problemi di intelligenza artificiale.
English
We present hyper-connections, a simple yet effective method that can serve as
an alternative to residual connections. This approach specifically addresses
common drawbacks observed in residual connection variants, such as the seesaw
effect between gradient vanishing and representation collapse. Theoretically,
hyper-connections allow the network to adjust the strength of connections
between features at different depths and dynamically rearrange layers. We
conduct experiments focusing on the pre-training of large language models,
including dense and sparse models, where hyper-connections show significant
performance improvements over residual connections. Additional experiments
conducted on vision tasks also demonstrate similar improvements. We anticipate
that this method will be broadly applicable and beneficial across a wide range
of AI problems.