Revisitando las Conexiones Residuales: Actualizaciones Ortogonales para Redes Profundas Estables y Eficientes
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
Autores: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
Resumen
Las conexiones residuales son fundamentales para las redes neuronales profundas, ya que permiten una mayor profundidad al mitigar el problema de los gradientes que se desvanecen. Sin embargo, en las actualizaciones residuales estándar, la salida del módulo se suma directamente al flujo de entrada. Esto puede generar actualizaciones que principalmente refuerzan o modulan la dirección del flujo existente, lo que potencialmente subutiliza la capacidad del módulo para aprender características completamente nuevas. En este trabajo, presentamos la Actualización Residual Ortogonal: descomponemos la salida del módulo en relación con el flujo de entrada y añadimos solo el componente ortogonal a este flujo. Este diseño tiene como objetivo guiar a los módulos para que contribuyan principalmente con nuevas direcciones de representación, fomentando un aprendizaje de características más rico y promoviendo un entrenamiento más eficiente. Demostramos que nuestra estrategia de actualización ortogonal mejora la precisión de generalización y la estabilidad del entrenamiento en diversas arquitecturas (ResNetV2, Transformers de Visión) y conjuntos de datos (CIFARs, TinyImageNet, ImageNet-1k), logrando, por ejemplo, una mejora de +4.3\%p en la precisión top-1 para ViT-B en ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.