ディープデルタ学習
Deep Delta Learning
January 1, 2026
著者: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI
要旨
深層残差ネットワークの有効性は、本質的に恒等ショートカット接続に依存している。このメカニズムは勾配消失問題を効果的に緩和する一方で、特徴変換に厳密に加法的な帰納的バイアスを課すため、複雑な状態遷移をモデル化するネットワークの能力を制限している。本論文では、恒等ショートカットを学習可能なデータ依存の幾何変換で変調することにより、標準的な残差接続を一般化した新規アーキテクチャであるDeep Delta Learning(DDL)を提案する。この変換はデルタ演算子と称され、反射方向ベクトルk(X)とゲートスカラーβ(X)でパラメータ化された単位行列のランク1摂動を構成する。本稿ではこの演算子のスペクトル解析を行い、ゲートβ(X)が恒等写像、直交射影、幾何反射の間の動的補間を可能にすることを示す。さらに、残差更新を同期型ランク1注入として再構築し、ゲートが古い情報の消去と新たな特徴の書き込みの両方を制御する動的ステップサイズとして機能するようにした。この統一化により、ネットワークは層ごとの遷移演算子のスペクトルを明示的に制御できるようになり、ゲート付き残差アーキテクチャの安定した学習特性を維持しつつ、複雑な非単調ダイナミクスのモデル化が可能となる。
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.