ChatPaper.aiChatPaper

Aprendizaje Delta Profundo

Deep Delta Learning

January 1, 2026
Autores: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI

Resumen

La eficacia de las redes residuales profundas se fundamenta esencialmente en la conexión de acceso directo de identidad. Si bien este mecanismo mitiga eficazmente el problema del gradiente vanishing, impone un sesgo inductivo estrictamente aditivo en las transformaciones de características, limitando así la capacidad de la red para modelar transiciones de estado complejas. En este artículo, presentamos Deep Delta Learning (DDL), una arquitectura novedosa que generaliza la conexión residual estándar mediante la modulación del acceso directo de identidad con una transformación geométrica, aprendible y dependiente de los datos. Esta transformación, denominada Operador Delta, constituye una perturbación de rango 1 de la matriz identidad, parametrizada por un vector de dirección de reflexión k(X) y un escalar de gateo β(X). Proporcionamos un análisis espectral de este operador, demostrando que la compuerta β(X) permite una interpolación dinámica entre el mapeo de identidad, la proyección ortogonal y la reflexión geométrica. Además, reestructuramos la actualización residual como una inyección síncrona de rango 1, donde la compuerta actúa como un tamaño de paso dinámico que gobierna tanto el borrado de información antigua como la escritura de nuevas características. Esta unificación dota a la red de la capacidad de controlar explícitamente el espectro de su operador de transición capa por capa, permitiendo el modelado de dinámicas complejas y no monótonas mientras se preservan las características estables de entrenamiento de las arquitecturas residuales con compuertas.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.
PDF181January 6, 2026