ChatPaper.aiChatPaper

KromHC: Mannigfaltigkeits-beschränkte Hyper-Verbindungen mit Kronecker-Produkt-Residualmatrizen

KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices

January 29, 2026
papers.authors: Wuyang Zhou, Yuxuan Gu, Giorgos Iacovides, Danilo Mandic
cs.AI

papers.abstract

Der Erfolg von Hyper-Connections (HC) in neuronalen Netzen (NN) hat auch Probleme im Zusammenhang mit deren Trainingsinstabilität und eingeschränkter Skalierbarkeit aufgezeigt. Die Manifold-Constrained Hyper-Connections (mHC) mildern diese Herausforderungen, indem sie den Residual Connection-Raum auf ein Birkhoff-Polytop projizieren. Allerdings weisen sie zwei Probleme auf: 1) Der iterative Sinkhorn-Knopp (SK)-Algorithmus liefert nicht immer exakt doppelt-stochastische Residualmatrizen; 2) mHC verursacht eine prohibitive Parameterkomplexität von O(n³C), wobei n die Breite des Residual Streams und C die Feature-Dimension ist. Die kürzlich vorgeschlagene mHC-lite parametrisiert die Residualmatrix über den Birkhoff-von-Neumann-Satz neu, um Doppelt-Stochastizität zu garantieren, sieht sich aber ebenfalls einer faktoriellen Explosion der Parameterkomplexität von O(nC · n!) gegenüber. Um beide Herausforderungen zu adressieren, schlagen wir KromHC vor, das Kronecker-Produkte kleinerer doppelt-stochastischer Matrizen verwendet, um die Residualmatrix in mHC zu parametrisieren. Durch die Durchsetzung von Manifold-Constraints über die faktorisierten Residualmatrizen entlang jedes Modus des tensorisierten Residual Streams garantiert KromHC exakte Doppelt-Stochastizität der Residualmatrizen und reduziert gleichzeitig die Parameterkomplexität auf O(n²C). Umfassende Experimente zeigen, dass KromHC mit state-of-the-art (SOTA) mHC-Varianten gleichzieht oder diese sogar übertrifft, dabei jedoch deutlich weniger trainierbare Parameter benötigt. Der Code ist unter https://github.com/wz1119/KromHC verfügbar.
English
The success of Hyper-Connections (HC) in neural networks (NN) has also highlighted issues related to its training instability and restricted scalability. The Manifold-Constrained Hyper-Connections (mHC) mitigate these challenges by projecting the residual connection space onto a Birkhoff polytope, however, it faces two issues: 1) its iterative Sinkhorn-Knopp (SK) algorithm does not always yield exact doubly stochastic residual matrices; 2) mHC incurs a prohibitive O(n^3C) parameter complexity with n as the width of the residual stream and C as the feature dimension. The recently proposed mHC-lite reparametrizes the residual matrix via the Birkhoff-von-Neumann theorem to guarantee double stochasticity, but also faces a factorial explosion in its parameter complexity, O left( nC cdot n! right). To address both challenges, we propose KromHC, which uses the Kronecker products of smaller doubly stochastic matrices to parametrize the residual matrix in mHC. By enforcing manifold constraints across the factor residual matrices along each mode of the tensorized residual stream, KromHC guarantees exact double stochasticity of the residual matrices while reducing parameter complexity to O(n^2C). Comprehensive experiments demonstrate that KromHC matches or even outperforms state-of-the-art (SOTA) mHC variants, while requiring significantly fewer trainable parameters. The code is available at https://github.com/wz1119/KromHC.
PDF44January 31, 2026