Revisitando las Conexiones Residuales: Actualizaciones Ortogonales para Redes Profundas Estables y Eficientes

Resumen

Las conexiones residuales son fundamentales para las redes neuronales profundas, ya que permiten una mayor profundidad al mitigar el problema de los gradientes que se desvanecen. Sin embargo, en las actualizaciones residuales estándar, la salida del módulo se suma directamente al flujo de entrada. Esto puede generar actualizaciones que principalmente refuerzan o modulan la dirección del flujo existente, lo que potencialmente subutiliza la capacidad del módulo para aprender características completamente nuevas. En este trabajo, presentamos la Actualización Residual Ortogonal: descomponemos la salida del módulo en relación con el flujo de entrada y añadimos solo el componente ortogonal a este flujo. Este diseño tiene como objetivo guiar a los módulos para que contribuyan principalmente con nuevas direcciones de representación, fomentando un aprendizaje de características más rico y promoviendo un entrenamiento más eficiente. Demostramos que nuestra estrategia de actualización ortogonal mejora la precisión de generalización y la estabilidad del entrenamiento en diversas arquitecturas (ResNetV2, Transformers de Visión) y conjuntos de datos (CIFARs, TinyImageNet, ImageNet-1k), logrando, por ejemplo, una mejora de +4.3\%p en la precisión top-1 para ViT-B en ImageNet-1k.

English

Residual connections are pivotal for deep neural networks, enabling greater depth by mitigating vanishing gradients. However, in standard residual updates, the module's output is directly added to the input stream. This can lead to updates that predominantly reinforce or modulate the existing stream direction, potentially underutilizing the module's capacity for learning entirely novel features. In this work, we introduce Orthogonal Residual Update: we decompose the module's output relative to the input stream and add only the component orthogonal to this stream. This design aims to guide modules to contribute primarily new representational directions, fostering richer feature learning while promoting more efficient training. We demonstrate that our orthogonal update strategy improves generalization accuracy and training stability across diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs, TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy gain for ViT-B on ImageNet-1k.

Revisitando las Conexiones Residuales: Actualizaciones Ortogonales para Redes Profundas Estables y Eficientes

Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

Resumen

Support