ChatPaper.aiChatPaper

Neubetrachtung von Residualverbindungen: Orthogonale Aktualisierungen für stabile und effiziente tiefe Netzwerke

Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

May 17, 2025
papers.authors: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI

papers.abstract

Residual-Verbindungen sind entscheidend für tiefe neuronale Netze, da sie durch die Minderung von verschwindenden Gradienten eine größere Tiefe ermöglichen. Bei standardmäßigen Residual-Updates wird jedoch die Ausgabe des Moduls direkt zum Eingabestrom addiert. Dies kann zu Updates führen, die hauptsächlich die bestehende Stromrichtung verstärken oder modulieren, wodurch die Kapazität des Moduls, völlig neue Merkmale zu erlernen, möglicherweise nicht vollständig ausgeschöpft wird. In dieser Arbeit führen wir das Orthogonale Residual-Update ein: Wir zerlegen die Ausgabe des Moduls relativ zum Eingabestrom und addieren nur die Komponente, die orthogonal zu diesem Strom ist. Dieser Entwurf zielt darauf ab, Module dazu anzuleiten, hauptsächlich neue repräsentative Richtungen beizutragen, wodurch ein reichhaltigeres Merkmalslernen gefördert und ein effizienteres Training ermöglicht wird. Wir zeigen, dass unsere Strategie des orthogonalen Updates die Generalisierungsgenauigkeit und Trainingsstabilität über verschiedene Architekturen (ResNetV2, Vision Transformers) und Datensätze (CIFARs, TinyImageNet, ImageNet-1k) hinweg verbessert und beispielsweise einen +4,3\%p Top-1-Genauigkeitsgewinn für ViT-B auf ImageNet-1k erzielt.
English
Residual connections are pivotal for deep neural networks, enabling greater depth by mitigating vanishing gradients. However, in standard residual updates, the module's output is directly added to the input stream. This can lead to updates that predominantly reinforce or modulate the existing stream direction, potentially underutilizing the module's capacity for learning entirely novel features. In this work, we introduce Orthogonal Residual Update: we decompose the module's output relative to the input stream and add only the component orthogonal to this stream. This design aims to guide modules to contribute primarily new representational directions, fostering richer feature learning while promoting more efficient training. We demonstrate that our orthogonal update strategy improves generalization accuracy and training stability across diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs, TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy gain for ViT-B on ImageNet-1k.
PDF42May 26, 2025