CosineGate: Roteamento Dinâmico Semântico via Incompatibilidade de Cosseno em Redes Residuais
CosineGate: Semantic Dynamic Routing via Cosine Incompatibility in Residual Networks
December 21, 2025
Autores: Yogeswar Reddy Thota
cs.AI
Resumo
Redes residuais profundas modernas realizam computação redundante substancial ao avaliar todos os blocos residuais para cada entrada, mesmo quando mapeamentos de identidade são suficientes. Apresentamos o CosineGate, uma arquitetura diferenciável de ponta a ponta para roteamento dinâmico em redes residuais, que utiliza a incompatibilidade de cosseno entre representações de características de identidade e residuais como um sinal de salto auto-supervisionado. O CosineGate mede a redundância semântica por meio da Razão de Incompatibilidade de Cosseno (CIR), definida como 1 - cos(x, F(x)), e emprega a relaxação Gumbel-Softmax para permitir o controle por amostra e por bloco durante o treinamento. Um termo de regularização progressiva de FLOPs controla o uso médio de computação sem desestabilizar a otimização. No CIFAR-10, o CosineGate abrange a fronteira de Pareto acurácia-eficiência: uma configuração agressiva atinge 89,9% de acurácia com 24,1% de economia de FLOPs, uma configuração equilibrada atinge 91,3% de acurácia com 28,5% de economia na época 160, e uma configuração conservadora alcança um pico de 93,2% de acurácia com redução mínima de computação. Esses resultados igualam ou superam o ResNet-20 (91,3%) enquanto reduzem a computação, sem supervisão auxiliar, destilação ou heurísticas específicas à tarefa. Nossos resultados demonstram que medidas geométricas simples de incompatibilidade de características fornecem um sinal fundamentado e eficaz para roteamento residual dinâmico.
English
Modern deep residual networks perform substantial redundant computation by evaluating all residual blocks for every input, even when identity mappings suffice. We introduce CosineGate, an end-to-end differentiable architecture for dynamic routing in residual networks that uses cosine incompatibility between identity and residual feature representations as a self-supervised skip signal. CosineGate measures semantic redundancy through the Cosine Incompatibility Ratio (CIR), defined as 1 - cos(x, F(x)), and uses Gumbel-Softmax relaxation to enable per-sample, per-block gating during training. A progressive FLOPs regularization term controls average compute usage without destabilizing optimization. On CIFAR-10, CosineGate spans the accuracy-efficiency Pareto frontier: an aggressive configuration achieves 89.9 percent accuracy with 24.1 percent FLOPs savings, a balanced configuration achieves 91.3 percent accuracy with 28.5 percent savings at epoch 160, and a conservative configuration reaches a peak of 93.2 percent accuracy with minimal compute reduction. These results match or exceed ResNet-20 (91.3 percent) while reducing computation, without auxiliary supervision, distillation, or task-specific heuristics. Our results demonstrate that simple geometric measures of feature incompatibility provide a principled and effective signal for dynamic residual routing.