Переосмысление остаточных соединений: ортогональные обновления для стабильных и эффективных глубоких сетей
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
Авторы: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
Аннотация
Остаточные соединения играют ключевую роль в глубоких нейронных сетях, позволяя увеличивать глубину сети за счет смягчения проблемы исчезающих градиентов. Однако в стандартных остаточных обновлениях выход модуля напрямую добавляется к входному потоку. Это может приводить к обновлениям, которые преимущественно усиливают или модулируют существующее направление потока, потенциально недоиспользуя способность модуля к изучению совершенно новых признаков. В данной работе мы представляем Ортогональное Остаточное Обновление: мы разлагаем выход модуля относительно входного потока и добавляем только компоненту, ортогональную этому потоку. Такой подход направлен на то, чтобы модули вносили в основном новые направления представления, способствуя более богатому обучению признаков и повышая эффективность обучения. Мы демонстрируем, что наша стратегия ортогонального обновления улучшает точность обобщения и стабильность обучения для различных архитектур (ResNetV2, Vision Transformers) и наборов данных (CIFARs, TinyImageNet, ImageNet-1k), достигая, например, увеличения точности top-1 на +4,3\% для ViT-B на ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.Summary
AI-Generated Summary