Herziening van Residuele Verbindingen: Orthogonale Updates voor Stabiele en Efficiënte Diepe Netwerken
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
Auteurs: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
Samenvatting
Residuale verbindingen zijn cruciaal voor diepe neurale netwerken, omdat ze grotere diepte mogelijk maken door het probleem van verdwijnende gradiënten te verminderen. In standaard residuale updates wordt de uitvoer van de module echter direct opgeteld bij de invoerstroom. Dit kan leiden tot updates die voornamelijk de bestaande stroomrichting versterken of moduleren, waardoor de capaciteit van de module om volledig nieuwe kenmerken te leren mogelijk onderbenut blijft. In dit werk introduceren we de Orthogonale Residuale Update: we ontbinden de uitvoer van de module ten opzichte van de invoerstroom en voegen alleen de component toe die orthogonaal is aan deze stroom. Dit ontwerp heeft als doel modules te begeleiden om voornamelijk nieuwe representatierichtingen bij te dragen, wat rijkere kenmerklearning bevordert en tegelijkertijd efficiëntere training mogelijk maakt. We tonen aan dat onze orthogonale update-strategie de generalisatie-accuraatheid en trainingsstabiliteit verbetert over diverse architecturen (ResNetV2, Vision Transformers) en datasets (CIFARs, TinyImageNet, ImageNet-1k), en bijvoorbeeld een +4,3\%p top-1 accuraatheidswinst oplevert voor ViT-B op ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.