mHC: Iperconnessioni Vincolate da Varietà
mHC: Manifold-Constrained Hyper-Connections
December 31, 2025
Autori: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI
Abstract
Recenti studi, come quello sulle Iper-Connessioni (HC), hanno esteso il paradigma ubiquitario delle connessioni residue consolidatosi nell'ultimo decennio, ampliando la larghezza del flusso residuo e diversificando gli schemi di connettività. Sebbene si ottengano sostanziali miglioramenti delle prestazioni, questa diversificazione compromette fondamentalmente la proprietà di identity mapping intrinseca della connessione residua, causando una grave instabilità durante l'addestramento e una scalabilità limitata, oltre a comportare un sovraccarico significativo negli accessi alla memoria. Per affrontare queste sfide, proponiamo le Iper-Connessioni a Vincolo di Varietà (mHC), un framework generale che proietta lo spazio delle connessioni residue delle HC su una varietà specifica per ripristinare la proprietà di identity mapping, incorporando al contempo un'ottimizzazione rigorosa dell'infrastruttura per garantire l'efficienza. Esperimenti empirici dimostrano che mHC è efficace per l'addestramento su larga scala, offrendo miglioramenti tangibili delle prestazioni e una scalabilità superiore. Anticipiamo che mHC, in quanto estensione flessibile e pratica delle HC, contribuirà a una comprensione più profonda della progettazione architetturale topologica e indicherà direzioni promettenti per l'evoluzione dei modelli fondanti.
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.