Rivalutazione delle connessioni residue: aggiornamenti ortogonali per reti neurali profonde stabili ed efficienti
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
Autori: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
Abstract
Le connessioni residue sono fondamentali per le reti neurali profonde, poiché consentono una maggiore profondità mitigando il problema dei gradienti che svaniscono. Tuttavia, negli aggiornamenti residui standard, l'output del modulo viene aggiunto direttamente al flusso di input. Questo può portare ad aggiornamenti che rafforzano o modulano principalmente la direzione del flusso esistente, rischiando di sottoutilizzare la capacità del modulo di apprendere caratteristiche completamente nuove. In questo lavoro, introduciamo l'Aggiornamento Residuo Ortogonale: scomponiamo l'output del modulo rispetto al flusso di input e aggiungiamo solo la componente ortogonale a questo flusso. Questo design mira a guidare i moduli a contribuire principalmente con nuove direzioni rappresentative, favorendo un apprendimento delle caratteristiche più ricco e promuovendo un addestramento più efficiente. Dimostriamo che la nostra strategia di aggiornamento ortogonale migliora l'accuratezza di generalizzazione e la stabilità dell'addestramento su diverse architetture (ResNetV2, Vision Transformers) e dataset (CIFARs, TinyImageNet, ImageNet-1k), ottenendo, ad esempio, un guadagno di +4,3\%p nell'accuratezza top-1 per ViT-B su ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.