Apprentissage Delta Profond
Deep Delta Learning
January 1, 2026
papers.authors: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI
papers.abstract
L'efficacité des réseaux résiduels profonds repose fondamentalement sur la connexion de raccourci d'identité. Bien que ce mécanisme atténue efficacement le problème du gradient disparaissant, il impose un biais inductif strictement additif sur les transformations de caractéristiques, limitant ainsi la capacité du réseau à modéliser des transitions d'état complexes. Dans cet article, nous présentons le Deep Delta Learning (DDL), une nouvelle architecture qui généralise la connexion résiduelle standard en modulant le raccourci d'identité par une transformation géométrique apprenable et dépendante des données. Cette transformation, nommée Opérateur Delta, constitue une perturbation de rang 1 de la matrice identité, paramétrée par un vecteur de direction de réflexion k(X) et un scalaire de gating β(X). Nous fournissons une analyse spectrale de cet opérateur, démontrant que la porte β(X) permet une interpolation dynamique entre la mise en correspondance d'identité, la projection orthogonale et la réflexion géométrique. De plus, nous restructurons la mise à jour résiduelle en une injection synchrone de rang 1, où la porte agit comme un pas dynamique gouvernant à la fois l'effacement des anciennes informations et l'écriture de nouvelles caractéristiques. Cette unification permet au réseau de contrôler explicitement le spectre de son opérateur de transition par couche, permettant la modélisation de dynamiques complexes non monotones tout en préservant les caractéristiques d'apprentissage stables des architectures résiduelles à portes.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.