ChatPaper.aiChatPaper

mHC: 多様体制約付きハイパー接続

mHC: Manifold-Constrained Hyper-Connections

December 31, 2025
著者: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI

要旨

近年、Hyper-Connections(HC)に代表される研究は、過去10年にわたって確立されてきたユビキタスな残差接続のパラダイムを、残差ストリームの幅拡張と接続パターンの多様化によって発展させてきた。しかしながら、この多様化は性能向上をもたらす一方で、残差接続に内在する恒等写像の特性を根本的に損なうため、深刻な訓練不安定性やスケーラビリティの制限を引き起こし、さらに顕著なメモリアクセスオーバーヘッドを生じさせる。これらの課題に対処するため、本論文ではManifold-Constrained Hyper-Connections(mHC)を提案する。これはHCの残差接続空間を特定の多様体上に射影することで恒等写像特性を回復しつつ、効率性を確保するための厳密なインフラストラクチャ最適化を組み込んだ汎用フレームワークである。実証実験により、mHCが大規模訓練において有効であり、実質的な性能向上と優れたスケーラビリティを提供することが示された。mHCはHCの柔軟かつ実用的な拡張として、トポロジカルなアーキテクチャ設計の理解深化に寄与し、基盤モデルの進化に向けた有望な方向性を示すことが期待される。
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.
PDF561January 2, 2026