mHC: Hiperconexiones con Restricción de Variedad
mHC: Manifold-Constrained Hyper-Connections
December 31, 2025
Autores: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI
Resumen
Recientemente, estudios ejemplificados por las Hiperconexiones (HC) han extendido el ubicuo paradigma de conexiones residuales establecido durante la última década, ampliando el ancho del flujo residual y diversificando los patrones de conectividad. Si bien esto produce ganancias sustanciales de rendimiento, dicha diversificación compromete fundamentalmente la propiedad de mapeo de identidad intrínseca a la conexión residual, lo que causa una grave inestabilidad en el entrenamiento y una escalabilidad restringida, además de incurrir en una sobrecarga notable de acceso a memoria. Para abordar estos desafíos, proponemos Hiperconexiones con Restricción de Variedad (mHC), un marco general que proyecta el espacio de conexión residual de HC sobre una variedad específica para restaurar la propiedad de mapeo de identidad, incorporando al mismo tiempo una rigurosa optimización de infraestructura para garantizar la eficiencia. Experimentos empíricos demuestran que mHC es efectivo para el entrenamiento a gran escala, ofreciendo mejoras tangibles de rendimiento y una escalabilidad superior. Anticipamos que mHC, como una extensión flexible y práctica de HC, contribuirá a una comprensión más profunda del diseño topológico de arquitecturas y sugerirá direcciones prometedoras para la evolución de los modelos fundamentales.
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.