mHC: Veelvoud-beperkte Hyperverbindingen
mHC: Manifold-Constrained Hyper-Connections
December 31, 2025
Auteurs: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI
Samenvatting
Recente studies, zoals geëxempleerd door Hyper-Connections (HC), hebben het alomtegenwoordige paradigma van residuele connecties – dat het afgelopen decennium is gevestigd – uitgebreid door de breedte van de residuele stroom te vergroten en de connectiviteitspatronen te diversifiëren. Hoewel dit aanzienlijke prestatieverbeteringen oplevert, tast deze diversificatie fundamenteel de identiteitsafbeeldingseigenschap aan die inherent is aan de residuele verbinding. Dit veroorzaakt ernstige trainingsinstabiliteit en beperkte schaalbaarheid, en brengt bovendien aanzienlijke overhead voor geheugentoegang met zich mee. Om deze uitdagingen aan te pakken, stellen wij Manifold-Constrained Hyper-Connections (mHC) voor, een algemeen kader dat de residuele verbindingsruimte van HC projecteert op een specifieke variëteit om de identiteitsafbeeldingseigenschap te herstellen, terwijl het rigoureuze infrastructuuromptimalisatie incorporeert om de efficiëntie te waarborgen. Empirische experimenten tonen aan dat mHC effectief is voor grootschalige training, met tastbare prestatieverbeteringen en superieure schaalbaarheid. Wij verwachten dat mHC, als een flexibele en praktische uitbreiding van HC, zal bijdragen aan een dieper begrip van topologisch architectuurontwerp en veelbelovende richtingen zal suggereren voor de evolutie van fundamentele modellen.
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.