딥 델타 러닝
Deep Delta Learning
January 1, 2026
저자: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI
초록
딥 잔여 네트워크의 효용성은 본질적으로 항등 숏컷 연결에 기반한다. 이 메커니즘은 기울기 소실 문제를 효과적으로 완화하지만, 특징 변환에 엄격하게 가법적인 귀납적 편향을 부과함으로써 복잡한 상태 전이를 모델링하는 네트워크의 능력을 제한한다. 본 논문에서는 항등 숏컷 연결을 학습 가능하고 데이터에 종속적인 기하학적 변환으로 조절하여 표준 잔여 연결을 일반화하는 새로운 아키텍처인 Deep Delta Learning(DDL)을 소개한다. 델타 연산자라 명명된 이 변환은 반사 방향 벡터 k(X)와 게이트 스칼라 β(X)로 매개변수화된 항등 행렬의 랭크-1 섭동으로 구성된다. 본 연구는 이 연산자에 대한 스펙트럼 분석을 제시하며, 게이트 β(X)가 항등 매핑, 직교 투영, 기하학적 반사 사이의 동적 보간을 가능하게 함을 입증한다. 더 나아가 잔여 업데이트를 동기적 랭크-1 주입으로 재구성하여, 게이트가 기존 정보의 삭제와 새로운 특징의 기록을 모두 제어하는 동적 스텝 크기 역할을 하도록 한다. 이러한 통일화는 네트워크가 계층별 전이 연산자의 스펙트럼을 명시적으로 제어할 수 있게 하여, 게이트 잔여 아키텍처의 안정적인 학습 특성을 보존하면서 복잡한 비단조 동역학을 모델링할 수 있는 능력을 부여한다.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.