ChatPaper.aiChatPaper

mHC: 매니폴드 제약 하이퍼 연결

mHC: Manifold-Constrained Hyper-Connections

December 31, 2025
저자: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI

초록

최근 하이퍼 커넥션(HC)을 비롯한 연구들은 지난 10년간 정립된 보편적인 잔차 연결 패러다임을 잔차 스트림의 폭 확장과 연결 패턴 다양화를 통해 확장해 왔습니다. 이러한 다양화는 상당한 성능 향상을 가져왔으나, 근본적으로 잔차 연결에 내재된 항등 매핑 특성을 훼손하여 심각한 훈련 불안정성과 확장성 제한을 초래하며, 추가적으로 상당한 메모리 접근 오버헤드를 유발합니다. 이러한 문제들을 해결하기 위해 우리는 HC의 잔차 연결 공간을 특정 매니폴드에 투영하여 항등 매핑 특성을 복원하는 일반화 프레임워크인 매니폴드-제약 하이퍼 커넥션(mHC)을 제안하며, 효율성을 보장하기 위한 엄격한 인프라 최적화를 함께 도입합니다. 실험 결과는 mHC이 대규모 훈��에 효과적이며, 실질적인 성능 향상과 우수한 확장성을 제공함을 입증합니다. 우리는 mHC이 HC의 유연하고 실용적인 확장으로서 위상 구조 설계에 대한 깊은 이해에 기여하고, 기초 모델 진화를 위한 유망한 방향성을 제시할 것으로 기대합니다.
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.
PDF561January 2, 2026