ChatPaper.aiChatPaper

KromHC: 크로네커 곱 잔차 행렬을 활용한 다양체 제약 하이퍼 연결

KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices

January 29, 2026
저자: Wuyang Zhou, Yuxuan Gu, Giorgos Iacovides, Danilo Mandic
cs.AI

초록

신경망에서 하이퍼 커넥션(HC)의 성공은 훈련 불안정성과 제한된 확장성과 관련된 문제점도 부각시켰다. 다양체 제약 하이퍼 커넥션(mHC)은 잔차 연결 공간을 Birkhoff 다면체에 투영하여 이러한 문제를 완화하지만, 두 가지 문제에 직면한다: 1) 반복적 Sinkhorn-Knopp(SK) 알고리즘이 항상 정확한 이중 확률적 잔차 행렬을 생성하지는 않음; 2) mHC는 잔차 스트림의 너비를 n, 특징 차원을 C로 할 때 파라미터 복잡도 O(n^3C)로 과도한 비용이 발생함. 최근 제안된 mHC-lite는 Birkhoff-von-Neumann 정리를 통해 잔차 행렬을 재매개변수화하여 이중 확률성을 보장하지만, 파라미터 복잡도 O(nC·n!)에서 계승적 폭발 문제에 직면한다. 이러한 두 가지 과제를 해결하기 위해 우리는 mHC의 잔차 행렬을 매개변수화하기 위해 더 작은 이중 확률 행렬들의 Kronecker 곱을 사용하는 KromHC를 제안한다. KromHC는 텐서화된 잔차 스트림의 각 모드를 따라 인수 잔차 행렬에 다양체 제약을 적용함으로써 잔차 행렬의 정확한 이중 확률성을 보장하면서 파라미터 복잡도를 O(n^2C)로 감소시킨다. 포괄적인 실험을 통해 KromHC가 최신 mHC 변형들과 동등하거나 더 나은 성능을 보이면서도 훨씬 적은 수의 학습 가능한 파라미터를 요구함을 입증하였다. 코드는 https://github.com/wz1119/KromHC에서 이용 가능하다.
English
The success of Hyper-Connections (HC) in neural networks (NN) has also highlighted issues related to its training instability and restricted scalability. The Manifold-Constrained Hyper-Connections (mHC) mitigate these challenges by projecting the residual connection space onto a Birkhoff polytope, however, it faces two issues: 1) its iterative Sinkhorn-Knopp (SK) algorithm does not always yield exact doubly stochastic residual matrices; 2) mHC incurs a prohibitive O(n^3C) parameter complexity with n as the width of the residual stream and C as the feature dimension. The recently proposed mHC-lite reparametrizes the residual matrix via the Birkhoff-von-Neumann theorem to guarantee double stochasticity, but also faces a factorial explosion in its parameter complexity, O left( nC cdot n! right). To address both challenges, we propose KromHC, which uses the Kronecker products of smaller doubly stochastic matrices to parametrize the residual matrix in mHC. By enforcing manifold constraints across the factor residual matrices along each mode of the tensorized residual stream, KromHC guarantees exact double stochasticity of the residual matrices while reducing parameter complexity to O(n^2C). Comprehensive experiments demonstrate that KromHC matches or even outperforms state-of-the-art (SOTA) mHC variants, while requiring significantly fewer trainable parameters. The code is available at https://github.com/wz1119/KromHC.
PDF44January 31, 2026