ChatPaper.aiChatPaper

Diep Delta Leren

Deep Delta Learning

January 1, 2026
Auteurs: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI

Samenvatting

De effectiviteit van diepe residuele netwerken is fundamenteel gebaseerd op de identiteitsshortcut-verbinding. Hoewel dit mechanisme het verdwijnende-gradiëntprobleem effectief vermindert, legt het een strikt additieve inductieve bias op aan featuretransformaties, waardoor de capaciteit van het netwerk om complexe toestandsovergangen te modelleren wordt beperkt. In dit artikel introduceren we Deep Delta Learning (DDL), een nieuwe architectuur die de standaard residuele verbinding generaliseert door de identiteitsshortcut te moduleren met een leerbare, data-afhankelijke geometrische transformatie. Deze transformatie, de Delta-Operator genaamd, vormt een rang-1-verstoring van de identiteitsmatrix, geparameteriseerd door een reflectierichtingsvector k(X) en een gating-scalar β(X). Wij bieden een spectrale analyse van deze operator, waarin wordt aangetoond dat de gate β(X) dynamische interpolatie mogelijk maakt tussen identiteitsafbeelding, orthogonale projectie en geometrische reflectie. Verder herstructureren wij de residuele update als een synchrone rang-1-injectie, waarbij de gate fungeert als een dynamische stapgrootte die zowel het wissen van oude informatie als het schrijven van nieuwe features aanstuurt. Deze unificatie stelt het netwerk in staat om het spectrum van zijn laagsgewijze transitie-operator expliciet te controleren, waardoor het modelleren van complexe, niet-monotone dynamiek mogelijk wordt, terwijl de stabiele trainingskenmerken van gegatede residuele architecturen behouden blijven.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.
PDF181January 6, 2026