KromHC:多様体制約付きハイパー接続とクロネッカー積残差行列
KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices
January 29, 2026
著者: Wuyang Zhou, Yuxuan Gu, Giorgos Iacovides, Danilo Mandic
cs.AI
要旨
ニューラルネットワーク(NN)におけるハイパーコネクション(HC)の成功は、その訓練の不安定性とスケーラビリティの制限に関連する課題も浮き彫りにした。多様体制約付きハイパーコネクション(mHC)は、残差接続空間をバーコフ多面体上へ射影することでこれらの課題を緩和するが、以下の二つの問題に直面する:1)反復的なシンクホーン・クノップ(SK)アルゴリズムが常に正確な二重確率的な残差行列を生成するとは限らないこと、2)mHCが残差ストリームの幅をn、特徴次元をCとして、許容し難いO(n^3C)というパラメータ複雑度を負うことである。最近提案されたmHC-liteは、バーコフ・フォン・ノイマンの定理を用いて残差行列を再パラメータ化し二重確率性を保証するが、O( nC cdot n! )という階乗的な爆発を伴うパラメータ複雑度の問題に直面する。これらの両課題に対処するため、我々はKromHCを提案する。これは、mHCにおける残差行列をパラメータ化するために、より小さな二重確率行列のクロネッカー積を使用する。テンソル化された残差ストリームの各モードに沿って因子残差行列に多様体制約を課すことで、KromHCは残差行列の正確な二重確率性を保証しつつ、パラメータ複雑度をO(n^2C)に削減する。包括的な実験により、KromHCが、訓練可能なパラメータ数を大幅に削減しながら、最先端(SOTA)のmHC変種に匹敵あるいはそれを上回る性能を発揮することが実証された。コードはhttps://github.com/wz1119/KromHC で公開されている。
English
The success of Hyper-Connections (HC) in neural networks (NN) has also highlighted issues related to its training instability and restricted scalability. The Manifold-Constrained Hyper-Connections (mHC) mitigate these challenges by projecting the residual connection space onto a Birkhoff polytope, however, it faces two issues: 1) its iterative Sinkhorn-Knopp (SK) algorithm does not always yield exact doubly stochastic residual matrices; 2) mHC incurs a prohibitive O(n^3C) parameter complexity with n as the width of the residual stream and C as the feature dimension. The recently proposed mHC-lite reparametrizes the residual matrix via the Birkhoff-von-Neumann theorem to guarantee double stochasticity, but also faces a factorial explosion in its parameter complexity, O left( nC cdot n! right). To address both challenges, we propose KromHC, which uses the Kronecker products of smaller doubly stochastic matrices to parametrize the residual matrix in mHC. By enforcing manifold constraints across the factor residual matrices along each mode of the tensorized residual stream, KromHC guarantees exact double stochasticity of the residual matrices while reducing parameter complexity to O(n^2C). Comprehensive experiments demonstrate that KromHC matches or even outperforms state-of-the-art (SOTA) mHC variants, while requiring significantly fewer trainable parameters. The code is available at https://github.com/wz1119/KromHC.