Squeeze-Release: Poda Iterativa com Minimização Estrutural Exata

Resumo

A poda não estruturada produz tensores de pesos esparsos, mas a implementação padrão mantém as formas dos tensores inalteradas, de modo que o modelo implantado não é menor do que antes da poda. Apresentamos uma reescrita estrutural exata, que chamamos de minimização, que converte uma rede mascarada em uma rede densa menor com a mesma função forward, a menos do arredondamento de ponto flutuante. O ciclo de Compressão-Liberação itera poda e minimização com uma etapa intermediária de liberação que reabilita as posições exatamente zero dentro dos tensores compactados como pequeno ruído calibrado, transformando capacidade de outra forma desperdiçada de volta em parâmetros treináveis. Ciclos sucessivos usam essa capacidade para encontrar redundância estrutural que uma única passagem não consegue alcançar. Introduzimos adicionalmente a CompensatedLayerNorm, uma substituição que preserva a função para LayerNorm que estende a minimização à redução de canais em fluxos residuais equipados com LayerNorm. O ciclo de Compressão-Liberação comprime a rede implantável para 39x menor que o modelo não podado em uma rede de modelo totalmente conectada e 14,8x menor em uma CNN moderna (ConvNeXt-Tiny), com precisão comparável. Além disso, provamos que a reescrita pode ser estendida a arquiteturas transformer.

English

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is no smaller than before pruning. We present an exact structural rewrite, which we call minimization, that converts a masked network into a smaller dense network with the same forward function up to floating-point rounding. The Squeeze-Release cycle iterates pruning and minimization with an intermediate release step that re-enables the exact-zero positions inside the compacted tensors as small calibrated noise, turning otherwise wasted capacity back into trainable parameters. Successive cycles use that capacity to find structural redundancy a single pass cannot reach. We additionally introduce CompensatedLayerNorm, a function-preserving replacement for LayerNorm that extends minimization to channel reduction across LayerNorm-equipped residual streams. Squeeze-Release compresses the deployable network to 39x smaller than the unpruned model on a fully-connected model network and 14.8x smaller on modern CNN (ConvNeXt-Tiny), at comparable accuracy. In addition we prove that the rewrite can be extended to transformer architectures.