mHC: Hiperconexões com Restrição de Variedade
mHC: Manifold-Constrained Hyper-Connections
December 31, 2025
Autores: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI
Resumo
Recentemente, estudos exemplificados pelas Hiperconexões (HC) estenderam o paradigma ubíquo de conexões residuais estabelecido na última década, expandindo a largura do fluxo residual e diversificando os padrões de conectividade. Embora gerem ganhos substanciais de desempenho, essa diversificação compromete fundamentalmente a propriedade de mapeamento de identidade intrínseca à conexão residual, o que causa severa instabilidade no treinamento e escalabilidade restrita, além de incorrer em uma sobrecarga significativa de acesso à memória. Para enfrentar esses desafios, propomos as Hiperconexões com Restrição de Variedade (mHC), uma estrutura geral que projeta o espaço de conexão residual das HC em uma variedade específica para restaurar a propriedade de mapeamento de identidade, incorporando simultaneamente uma rigorosa otimização de infraestrutura para garantir eficiência. Experimentos empíricos demonstram que a mHC é eficaz para treinamento em escala, oferecendo melhorias tangíveis de desempenho e escalabilidade superior. Antecipamos que a mHC, como uma extensão flexível e prática das HC, contribuirá para uma compreensão mais profunda do projeto arquitetônico topológico e sugerirá direções promissoras para a evolução de modelos fundamentais.
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.