Réexamen des connexions résiduelles : Mises à jour orthogonales pour des réseaux profonds stables et efficaces
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
papers.authors: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
papers.abstract
Les connexions résiduelles sont essentielles pour les réseaux de neurones profonds, permettant une plus grande profondeur en atténuant le problème des gradients disparaissants. Cependant, dans les mises à jour résiduelles standard, la sortie du module est directement ajoutée au flux d'entrée. Cela peut entraîner des mises à jour qui renforcent ou modulent principalement la direction existante du flux, sous-exploitant potentiellement la capacité du module à apprendre des caractéristiques entièrement nouvelles. Dans ce travail, nous introduisons la Mise à Jour Résiduelle Orthogonale : nous décomposons la sortie du module par rapport au flux d'entrée et n'ajoutons que la composante orthogonale à ce flux. Cette conception vise à guider les modules pour qu'ils contribuent principalement à de nouvelles directions de représentation, favorisant un apprentissage de caractéristiques plus riche tout en promouvant un entraînement plus efficace. Nous démontrons que notre stratégie de mise à jour orthogonale améliore la précision de généralisation et la stabilité de l'entraînement sur diverses architectures (ResNetV2, Vision Transformers) et jeux de données (CIFARs, TinyImageNet, ImageNet-1k), obtenant par exemple un gain de +4,3\%p en précision top-1 pour ViT-B sur ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.