Aprendizado Delta Profundo
Deep Delta Learning
January 1, 2026
Autores: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI
Resumo
A eficácia das redes residuais profundas está fundamentalmente baseada na conexão de atalho de identidade. Embora este mecanismo mitigue eficazmente o problema do gradiente vanishing, ele impõe um viés indutivo estritamente aditivo nas transformações de características, limitando assim a capacidade da rede de modelar transições de estado complexas. Neste artigo, introduzimos a Aprendizagem Delta Profunda (DDL), uma nova arquitetura que generaliza a conexão residual padrão, modulando o atalho de identidade com uma transformação geométrica aprendível e dependente dos dados. Esta transformação, denominada Operador Delta, constitui uma perturbação de posto 1 da matriz identidade, parametrizada por um vetor de direção de reflexão k(X) e um escalar de gate β(X). Fornecemos uma análise espectral deste operador, demonstrando que o gate β(X) permite uma interpolação dinâmica entre mapeamento de identidade, projeção ortogonal e reflexão geométrica. Além disso, reestruturamos a atualização residual como uma injeção síncrona de posto 1, onde o gate atua como um tamanho de passo dinâmico que governa tanto a eliminação de informações antigas quanto a escrita de novas características. Esta unificação capacita a rede a controlar explicitamente o espectro do seu operador de transição por camadas, permitindo a modelagem de dinâmicas complexas e não monotónicas, preservando as características estáveis de treinamento das arquiteturas residuais com gates.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.