mHC: Многообразие-ограниченные гиперсвязи
mHC: Manifold-Constrained Hyper-Connections
December 31, 2025
Авторы: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
cs.AI
Аннотация
В последнее время исследования, примером которых служит метод гиперсвязей (HC), расширили устоявшуюся за последнее десятилетие парадигму остаточных связей за счет увеличения ширины остаточного потока и диверсификации шаблонов связности. Однако, хотя это и приводит к значительному росту производительности, такая диверсификация фундаментально нарушает свойство тождественного отображения, присущее остаточной связи, что вызывает серьезную нестабильность обучения, ограничивает масштабируемость и дополнительно создает значительные накладные расходы на доступ к памяти. Для решения этих проблем мы предлагаем метод гиперсвязей с ограничением на многообразие (mHC) — общую архитектуру, которая проецирует пространство остаточных связей HC на определенное многообразие, чтобы восстановить свойство тождественного отображения, одновременно включая строгую оптимизацию инфраструктуры для обеспечения эффективности. Эксперименты показывают, что mHC эффективен для масштабного обучения, обеспечивая ощутимое улучшение производительности и превосходную масштабируемость. Мы ожидаем, что mHC как гибкое и практичное расширение HC внесет вклад в более глубокое понимание топологического проектирования архитектур и укажет перспективные направления для эволюции базовых моделей.
English
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.