ChatPaper.aiChatPaper

KromHC: Veelvoud-beperkte Hyperverbindingen met Kronecker-product-residu matrices

KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices

January 29, 2026
Auteurs: Wuyang Zhou, Yuxuan Gu, Giorgos Iacovides, Danilo Mandic
cs.AI

Samenvatting

Het succes van Hyper-Connecties (HC) in neurale netwerken (NN) heeft ook problemen aan het licht gebracht die verband houden met de trainingsinstabiliteit en beperkte schaalbaarheid ervan. De Manifold-Geconstrueerde Hyper-Connecties (mHC) verminderen deze uitdagingen door de ruimte van restverbindingen te projecteren op een Birkhoff-polytop, maar kampt zelf met twee problemen: 1) het iteratieve Sinkhorn-Knopp (SK)-algoritme levert niet altijd exact dubbel stochastische restmatrices op; 2) mHC heeft een onhoudbare parametercomplexiteit van O(n³C), waarbij n de breedte van de reststroom is en C de feature-dimensie. De recent voorgestelde mHC-lite herparameteriseert de restmatrix via de Birkhoff-von Neumann-stelling om dubbel stochasticiteit te garanderen, maar krijgt ook te maken met een factoriële explosie in de parametercomplexiteit, O(nC · n!). Om beide uitdagingen aan te pakken, stellen wij KromHC voor, dat de Kronecker-producten van kleinere dubbel stochastische matrices gebruikt om de restmatrix in mHC te parameteriseren. Door manifold-beperkingen af te dwingen over de factor-restmatrices langs elke modus van de getensoriseerde reststroom, garandeert KromHC exacte dubbel stochasticiteit van de restmatrices, terwijl de parametercomplexiteit wordt gereduceerd tot O(n²C). Uitgebreide experimenten tonen aan dat KromHC even goed of zelfs beter presteert dan state-of-the-art (SOTA) mHC-varianten, terwijl het aanzienlijk minder trainbare parameters vereist. De code is beschikbaar op https://github.com/wz1119/KromHC.
English
The success of Hyper-Connections (HC) in neural networks (NN) has also highlighted issues related to its training instability and restricted scalability. The Manifold-Constrained Hyper-Connections (mHC) mitigate these challenges by projecting the residual connection space onto a Birkhoff polytope, however, it faces two issues: 1) its iterative Sinkhorn-Knopp (SK) algorithm does not always yield exact doubly stochastic residual matrices; 2) mHC incurs a prohibitive O(n^3C) parameter complexity with n as the width of the residual stream and C as the feature dimension. The recently proposed mHC-lite reparametrizes the residual matrix via the Birkhoff-von-Neumann theorem to guarantee double stochasticity, but also faces a factorial explosion in its parameter complexity, O left( nC cdot n! right). To address both challenges, we propose KromHC, which uses the Kronecker products of smaller doubly stochastic matrices to parametrize the residual matrix in mHC. By enforcing manifold constraints across the factor residual matrices along each mode of the tensorized residual stream, KromHC guarantees exact double stochasticity of the residual matrices while reducing parameter complexity to O(n^2C). Comprehensive experiments demonstrate that KromHC matches or even outperforms state-of-the-art (SOTA) mHC variants, while requiring significantly fewer trainable parameters. The code is available at https://github.com/wz1119/KromHC.
PDF65February 16, 2026