ChatPaper.aiChatPaper

Tiefes Delta-Lernen

Deep Delta Learning

January 1, 2026
papers.authors: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI

papers.abstract

Die Wirksamkeit von tiefen Residualnetzen basiert grundlegend auf der Identitäts-Kurzschlussverbindung. Während dieser Mechanismus das Problem des verschwindenden Gradienten wirksam abmildert, induziert er einen streng additiven Induktionsbias für Merkmalstransformationen, was die Fähigkeit des Netzes zur Modellierung komplexer Zustandsübergänge einschränkt. In dieser Arbeit stellen wir Deep Delta Learning (DDL) vor, eine neuartige Architektur, die die Standard-Residualverbindung verallgemeinert, indem sie den Identitäts-Pfad durch eine lernbare, datenabhängige geometrische Transformation moduliert. Diese Transformation, bezeichnet als Delta-Operator, stellt eine Rang-1-Störung der Einheitsmatrix dar, parametrisiert durch einen Reflexionsrichtungsvektor k(X) und einen skalaren Gating-Wert β(X). Wir liefern eine Spektralanalyse dieses Operators und zeigen, dass das Gating β(X) eine dynamische Interpolation zwischen Identitätsabbildung, orthogonaler Projektion und geometrischer Reflexion ermöglicht. Darüber hinaus strukturieren wir das Residual-Update als synchrone Rang-1-Injektion um, bei der das Gating als dynamische Schrittweite fungiert, die sowohl das Löschen alter Informationen als auch das Schreiben neuer Merkmale steuert. Diese Vereinheitlichung befähigt das Netzwerk, das Spektrum seines schichtenweisen Übergangsoperators explizit zu kontrollieren, wodurch die Modellierung komplexer, nicht-monotoner Dynamiken bei gleichzeitiger Beibehaltung der stabilen Trainingseigenschaften gegateter Residualarchitekturen ermöglicht wird.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.
PDF181January 6, 2026