Apprendimento Delta Profondo

Abstract

L'efficacia delle reti residue profonde si basa fondamentalmente sulla connessione di cortocircuito identità. Sebbene questo meccanismo mitighi efficacemente il problema del gradiente evanescente, impone un bias induttivo strettamente additivo sulle trasformazioni delle feature, limitando così la capacità della rete di modellare transizioni di stato complesse. In questo articolo, introduciamo il Deep Delta Learning (DDL), un'architettura innovativa che generalizza la connessione residua standard modulando il cortocircuito identità con una trasformazione geometrica apprendibile e dipendente dai dati. Questa trasformazione, denominata Operatore Delta, costituisce una perturbazione di rango-1 della matrice identità, parametrizzata da un vettore direzione di riflessione k(X) e da uno scalare di gating β(X). Forniamo un'analisi spettrale di questo operatore, dimostrando che il gate β(X) consente un'interpolazione dinamica tra mappatura identità, proiezione ortogonale e riflessione geometrica. Inoltre, ristrutturiamo l'aggiornamento residuo come un'iniezione sincrona di rango-1, in cui il gate agisce come una dimensione del passo dinamica che governa sia la cancellazione delle vecchie informazioni che la scrittura delle nuove feature. Questa unificazione consente alla rete di controllare esplicitamente lo spettro del proprio operatore di transizione strato per strato, permettendo la modellazione di dinamiche complesse e non monotone preservando al contempo le caratteristiche di addestramento stabile delle architetture residue con gating.

English

The efficacy of deep residual networks is fundamentally predicated on the identity shortcut connection. While this mechanism effectively mitigates the vanishing gradient problem, it imposes a strictly additive inductive bias on feature transformations, thereby limiting the network's capacity to model complex state transitions. In this paper, we introduce Deep Delta Learning (DDL), a novel architecture that generalizes the standard residual connection by modulating the identity shortcut with a learnable, data-dependent geometric transformation. This transformation, termed the Delta Operator, constitutes a rank-1 perturbation of the identity matrix, parameterized by a reflection direction vector k(X) and a gating scalar β(X). We provide a spectral analysis of this operator, demonstrating that the gate β(X) enables dynamic interpolation between identity mapping, orthogonal projection, and geometric reflection. Furthermore, we restructure the residual update as a synchronous rank-1 injection, where the gate acts as a dynamic step size governing both the erasure of old information and the writing of new features. This unification empowers the network to explicitly control the spectrum of its layer-wise transition operator, enabling the modeling of complex, non-monotonic dynamics while preserving the stable training characteristics of gated residual architectures.