Compresión-Liberación: Poda Iterativa con Minimización Estructural Exacta

Resumen

El pruning no estructurado produce tensores de pesos dispersos, pero la implementación estándar mantiene las formas de los tensores sin cambios, por lo que el modelo desplegado no es más pequeño que antes del pruning. Presentamos una reescritura estructural exacta, a la que llamamos minimización, que convierte una red enmascarada en una red densa más pequeña con la misma función forward, salvo por el redondeo de punto flotante. El ciclo Squeeze-Release itera el pruning y la minimización con un paso intermedio de liberación que reactiva las posiciones exactamente cero dentro de los tensores compactados como pequeño ruido calibrado, convirtiendo la capacidad que de otro modo se desperdiciaría nuevamente en parámetros entrenables. Los ciclos sucesivos utilizan esa capacidad para encontrar redundancia estructural que un solo paso no puede alcanzar. Además, introducimos CompensatedLayerNorm, un reemplazo que preserva la función para LayerNorm, que extiende la minimización a la reducción de canales a través de flujos residuales equipados con LayerNorm. Squeeze-Release comprime la red desplegable a 39 veces más pequeña que el modelo sin podar en una red de modelo completamente conectado y 14,8 veces más pequeña en una CNN moderna (ConvNeXt-Tiny), con una precisión comparable. Además, demostramos que la reescritura puede extenderse a arquitecturas Transformer.

English

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is no smaller than before pruning. We present an exact structural rewrite, which we call minimization, that converts a masked network into a smaller dense network with the same forward function up to floating-point rounding. The Squeeze-Release cycle iterates pruning and minimization with an intermediate release step that re-enables the exact-zero positions inside the compacted tensors as small calibrated noise, turning otherwise wasted capacity back into trainable parameters. Successive cycles use that capacity to find structural redundancy a single pass cannot reach. We additionally introduce CompensatedLayerNorm, a function-preserving replacement for LayerNorm that extends minimization to channel reduction across LayerNorm-equipped residual streams. Squeeze-Release compresses the deployable network to 39x smaller than the unpruned model on a fully-connected model network and 14.8x smaller on modern CNN (ConvNeXt-Tiny), at comparable accuracy. In addition we prove that the rewrite can be extended to transformer architectures.