Neubetrachtung von Residualverbindungen: Orthogonale Aktualisierungen für stabile und effiziente tiefe Netzwerke
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
papers.authors: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
papers.abstract
Residual-Verbindungen sind entscheidend für tiefe neuronale Netze, da sie durch die Minderung von verschwindenden Gradienten eine größere Tiefe ermöglichen. Bei standardmäßigen Residual-Updates wird jedoch die Ausgabe des Moduls direkt zum Eingabestrom addiert. Dies kann zu Updates führen, die hauptsächlich die bestehende Stromrichtung verstärken oder modulieren, wodurch die Kapazität des Moduls, völlig neue Merkmale zu erlernen, möglicherweise nicht vollständig ausgeschöpft wird. In dieser Arbeit führen wir das Orthogonale Residual-Update ein: Wir zerlegen die Ausgabe des Moduls relativ zum Eingabestrom und addieren nur die Komponente, die orthogonal zu diesem Strom ist. Dieser Entwurf zielt darauf ab, Module dazu anzuleiten, hauptsächlich neue repräsentative Richtungen beizutragen, wodurch ein reichhaltigeres Merkmalslernen gefördert und ein effizienteres Training ermöglicht wird. Wir zeigen, dass unsere Strategie des orthogonalen Updates die Generalisierungsgenauigkeit und Trainingsstabilität über verschiedene Architekturen (ResNetV2, Vision Transformers) und Datensätze (CIFARs, TinyImageNet, ImageNet-1k) hinweg verbessert und beispielsweise einen +4,3\%p Top-1-Genauigkeitsgewinn für ViT-B auf ImageNet-1k erzielt.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.