ChatPaper.aiChatPaper

Revisitando Conexões Residuais: Atualizações Ortogonais para Redes Profundas Estáveis e Eficientes

Revisiting Residual Connections: Orthogonal Updates for Stable and Efficient Deep Networks

May 17, 2025
Autores: Giyeong Oh, Woohyun Cho, Siyeol Kim, Suhwan Choi, Younjae Yu
cs.AI

Resumo

As conexões residuais são fundamentais para redes neurais profundas, permitindo maior profundidade ao mitigar o problema de gradientes que desaparecem. No entanto, nas atualizações residuais padrão, a saída do módulo é adicionada diretamente ao fluxo de entrada. Isso pode levar a atualizações que predominantemente reforçam ou modulam a direção do fluxo existente, potencialmente subutilizando a capacidade do módulo de aprender características completamente novas. Neste trabalho, introduzimos a Atualização Residual Ortogonal: decompomos a saída do módulo em relação ao fluxo de entrada e adicionamos apenas o componente ortogonal a esse fluxo. Esse design visa orientar os módulos a contribuir principalmente com novas direções de representação, promovendo um aprendizado de características mais rico e um treinamento mais eficiente. Demonstramos que nossa estratégia de atualização ortogonal melhora a acurácia de generalização e a estabilidade do treinamento em diversas arquiteturas (ResNetV2, Vision Transformers) e conjuntos de dados (CIFARs, TinyImageNet, ImageNet-1k), alcançando, por exemplo, um ganho de +4,3\%p na acurácia top-1 para o ViT-B no ImageNet-1k.
English
Residual connections are pivotal for deep neural networks, enabling greater depth by mitigating vanishing gradients. However, in standard residual updates, the module's output is directly added to the input stream. This can lead to updates that predominantly reinforce or modulate the existing stream direction, potentially underutilizing the module's capacity for learning entirely novel features. In this work, we introduce Orthogonal Residual Update: we decompose the module's output relative to the input stream and add only the component orthogonal to this stream. This design aims to guide modules to contribute primarily new representational directions, fostering richer feature learning while promoting more efficient training. We demonstrate that our orthogonal update strategy improves generalization accuracy and training stability across diverse architectures (ResNetV2, Vision Transformers) and datasets (CIFARs, TinyImageNet, ImageNet-1k), achieving, for instance, a +4.3\%p top-1 accuracy gain for ViT-B on ImageNet-1k.
PDF42May 26, 2025