Revisitando Conexões Residuais: Atualizações Ortogonais para Redes Profundas Estáveis e Eficientes
Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks
May 17, 2025
Autores: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI
Resumo
As conexões residuais são fundamentais para redes neurais profundas, permitindo maior profundidade ao mitigar o problema de gradientes que desaparecem. No entanto, nas atualizações residuais padrão, a saída do módulo é adicionada diretamente ao fluxo de entrada. Isso pode levar a atualizações que predominantemente reforçam ou modulam a direção do fluxo existente, potencialmente subutilizando a capacidade do módulo de aprender características completamente novas. Neste trabalho, introduzimos a Atualização Residual Ortogonal: decompomos a saída do módulo em relação ao fluxo de entrada e adicionamos apenas o componente ortogonal a esse fluxo. Esse design visa orientar os módulos a contribuir principalmente com novas direções de representação, promovendo um aprendizado de características mais rico e um treinamento mais eficiente. Demonstramos que nossa estratégia de atualização ortogonal melhora a acurácia de generalização e a estabilidade do treinamento em diversas arquiteturas (ResNetV2, Vision Transformers) e conjuntos de dados (CIFARs, TinyImageNet, ImageNet-1k), alcançando, por exemplo, um ganho de +4,3\%p na acurácia top-1 para o ViT-B no ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater
depth by mitigating vanishing gradients. However, in standard residual updates,
the module's output is directly added to the input stream. This can lead to
updates that predominantly reinforce or modulate the existing stream direction,
potentially underutilizing the module's capacity for learning entirely novel
features. In this work, we introduce Orthogonal Residual Update: we decompose
the module's output relative to the input stream and add only the component
orthogonal to this stream. This design aims to guide modules to contribute
primarily new representational directions, fostering richer feature learning
while promoting more efficient training. We demonstrate that our orthogonal
update strategy improves generalization accuracy and training stability across
diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs,
TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy
gain for ViT-B on ImageNet-1k.