Hyper-Verbindungen
Hyper-Connections
September 29, 2024
papers.authors: Defa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou
cs.AI
papers.abstract
Wir präsentieren Hyper-Verbindungen, eine einfache, aber effektive Methode, die als Alternative zu Restverbindungen dienen kann. Dieser Ansatz behebt speziell häufig beobachtete Nachteile bei Varianten von Restverbindungen, wie den Wechselwirkungen zwischen dem Verschwinden des Gradienten und dem Zusammenbruch der Repräsentation. Theoretisch ermöglichen Hyper-Verbindungen dem Netzwerk, die Stärke der Verbindungen zwischen Merkmalen in verschiedenen Tiefen anzupassen und Schichten dynamisch neu anzuordnen. Wir führen Experimente zur Vorabtrainierung großer Sprachmodelle durch, einschließlich dichter und spärlicher Modelle, bei denen Hyper-Verbindungen signifikante Leistungsverbesserungen im Vergleich zu Restverbindungen zeigen. Zusätzliche Experimente, die an Aufgaben im Bereich der Bildverarbeitung durchgeführt wurden, zeigen ähnliche Verbesserungen. Wir erwarten, dass diese Methode breit anwendbar und vorteilhaft für eine Vielzahl von KI-Problemen sein wird.
English
We present hyper-connections, a simple yet effective method that can serve as
an alternative to residual connections. This approach specifically addresses
common drawbacks observed in residual connection variants, such as the seesaw
effect between gradient vanishing and representation collapse. Theoretically,
hyper-connections allow the network to adjust the strength of connections
between features at different depths and dynamically rearrange layers. We
conduct experiments focusing on the pre-training of large language models,
including dense and sparse models, where hyper-connections show significant
performance improvements over residual connections. Additional experiments
conducted on vision tasks also demonstrate similar improvements. We anticipate
that this method will be broadly applicable and beneficial across a wide range
of AI problems.