CosineGate: Enrutamiento Dinámico Semántico mediante Incompatibilidad de Coseno en Redes Residuales
CosineGate: Semantic Dynamic Routing via Cosine Incompatibility in Residual Networks
December 21, 2025
Autores: Yogeswar Reddy Thota
cs.AI
Resumen
Los modernos redes residuales profundas realizan un cómputo sustancialmente redundante al evaluar todos los bloques residuales para cada entrada, incluso cuando los mapeos identidad son suficientes. Presentamos CosineGate, una arquitectura diferenciable de extremo a extremo para el enrutamiento dinámico en redes residuales que utiliza la incompatibilidad de coseno entre las representaciones de características de identidad y residuales como una señal de salto autosupervisada. CosineGate mide la redundancia semántica mediante la Relación de Incompatibilidad de Coseno (RIC), definida como 1 - cos(x, F(x)), y emplea la relajación Gumbel-Softmax para permitir una activación por muestra y por bloque durante el entrenamiento. Un término de regularización progresiva de FLOPs controla el uso promedio de cómputo sin desestabilizar la optimización. En CIFAR-10, CosineGate abarca la frontera de Pareto precisión-eficiencia: una configuración agresiva alcanza un 89,9% de precisión con un ahorro del 24,1% en FLOPs, una configuración equilibrada obtiene un 91,3% de precisión con un ahorro del 28,5% en la época 160, y una configuración conservadora llega a un pico del 93,2% de precisión con una reducción mínima de cómputo. Estos resultados igualan o superan a ResNet-20 (91,3%) mientras reducen el cómputo, sin supervisión auxiliar, destilación ni heurísticas específicas de la tarea. Nuestros resultados demuestran que medidas geométricas simples de la incompatibilidad de características proporcionan una señal fundamentada y efectiva para el enrutamiento residual dinámico.
English
Modern deep residual networks perform substantial redundant computation by evaluating all residual blocks for every input, even when identity mappings suffice. We introduce CosineGate, an end-to-end differentiable architecture for dynamic routing in residual networks that uses cosine incompatibility between identity and residual feature representations as a self-supervised skip signal. CosineGate measures semantic redundancy through the Cosine Incompatibility Ratio (CIR), defined as 1 - cos(x, F(x)), and uses Gumbel-Softmax relaxation to enable per-sample, per-block gating during training. A progressive FLOPs regularization term controls average compute usage without destabilizing optimization. On CIFAR-10, CosineGate spans the accuracy-efficiency Pareto frontier: an aggressive configuration achieves 89.9 percent accuracy with 24.1 percent FLOPs savings, a balanced configuration achieves 91.3 percent accuracy with 28.5 percent savings at epoch 160, and a conservative configuration reaches a peak of 93.2 percent accuracy with minimal compute reduction. These results match or exceed ResNet-20 (91.3 percent) while reducing computation, without auxiliary supervision, distillation, or task-specific heuristics. Our results demonstrate that simple geometric measures of feature incompatibility provide a principled and effective signal for dynamic residual routing.