Глубокое обучение с дельта-правилом
Deep Delta Learning
January 1, 2026
Авторы: Yifan Zhang, Yifeng Liu, Mengdi Wang, Quanquan Gu
cs.AI
Аннотация
Эффективность глубоких остаточных сетей фундаментально основана на тождественных сквозных связях. Хотя этот механизм успешно смягчает проблему исчезающего градиента, он накладывает строго аддитивное индуктивное смещение на преобразования признаков, тем самым ограничивая способность сети моделировать сложные переходы состояний. В данной статье мы представляем Deep Delta Learning (DDL) — новую архитектуру, которая обобщает стандартное остаточное соединение за счет модуляции тождественного шунта с помощью обучаемого, зависящего от данных геометрического преобразования. Это преобразование, названное Дельта-оператором, представляет собой возмущение единичной матрицы ранга 1, параметризованное вектором направления отражения k(X) и скаляром затвора β(X). Мы проводим спектральный анализ данного оператора, показывая, что затвор β(X) позволяет осуществлять динамическую интерполяцию между тождественным отображением, ортогональной проекцией и геометрическим отражением. Кроме того, мы перестраиваем остаточное обновление в виде синхронной инъекции ранга 1, где затвор выступает в роли динамического шага обучения, управляющего как стиранием старой информации, так и записью новых признаков. Такая унификация позволяет сети явно контролировать спектр своего послойного оператора перехода, обеспечивая моделирование сложной, немонотонной динамики при сохранении стабильных характеристик обучения, присущих остаточным архитектурам с затворами.
English
The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.