Réexamen des connexions résiduelles : Mises à jour orthogonales pour des réseaux profonds stables et efficaces

papers.abstract

Les connexions résiduelles sont essentielles pour les réseaux de neurones profonds, permettant une plus grande profondeur en atténuant le problème des gradients disparaissants. Cependant, dans les mises à jour résiduelles standard, la sortie du module est directement ajoutée au flux d'entrée. Cela peut entraîner des mises à jour qui renforcent ou modulent principalement la direction existante du flux, sous-exploitant potentiellement la capacité du module à apprendre des caractéristiques entièrement nouvelles. Dans ce travail, nous introduisons la Mise à Jour Résiduelle Orthogonale : nous décomposons la sortie du module par rapport au flux d'entrée et n'ajoutons que la composante orthogonale à ce flux. Cette conception vise à guider les modules pour qu'ils contribuent principalement à de nouvelles directions de représentation, favorisant un apprentissage de caractéristiques plus riche tout en promouvant un entraînement plus efficace. Nous démontrons que notre stratégie de mise à jour orthogonale améliore la précision de généralisation et la stabilité de l'entraînement sur diverses architectures (ResNetV2, Vision Transformers) et jeux de données (CIFARs, TinyImageNet, ImageNet-1k), obtenant par exemple un gain de +4,3\%p en précision top-1 pour ViT-B sur ImageNet-1k.

English

Residual connections are pivotal for deep neural networks, enabling greater depth by mitigating vanishing gradients. However, in standard residual updates, the module's output is directly added to the input stream. This can lead to updates that predominantly reinforce or modulate the existing stream direction, potentially underutilizing the module's capacity for learning entirely novel features. In this work, we introduce Orthogonal Residual Update: we decompose the module's output relative to the input stream and add only the component orthogonal to this stream. This design aims to guide modules to contribute primarily new representational directions, fostering richer feature learning while promoting more efficient training. We demonstrate that our orthogonal update strategy improves generalization accuracy and training stability across diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs, TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy gain for ViT-B on ImageNet-1k.

Réexamen des connexions résiduelles : Mises à jour orthogonales pour des réseaux profonds stables et efficaces

Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

papers.abstract

Support