Squeeze-Release : élagage itératif avec minimisation structurelle exacte

Résumé

L'élagage non structuré produit des tenseurs de poids creux, mais l'implémentation standard conserve les dimensions des tenseurs inchangées, de sorte que le modèle déployé n'est pas plus petit qu'avant l'élagage. Nous présentons une réécriture structurelle exacte, que nous appelons minimisation, qui convertit un réseau masqué en un réseau dense plus petit dont la fonction de propagation avant est identique à l'arrondi en virgule flottante près. Le cycle Squeeze-Release itère l'élagage et la minimisation avec une étape de libération intermédiaire qui réactive les positions exactement nulles à l'intérieur des tenseurs compactés sous forme d'un petit bruit calibré, transformant ainsi une capacité autrement perdue en paramètres entraînables. Les cycles successifs utilisent cette capacité pour détecter une redondance structurelle qu'un seul passage ne peut atteindre. Nous introduisons également CompensatedLayerNorm, un remplacement préservant la fonction de LayerNorm qui étend la minimisation à la réduction des canaux dans les flux résiduels équipés de LayerNorm. Squeeze-Release comprime le réseau déployable à 39 fois plus petit que le modèle non élagué sur un réseau entièrement connecté et à 14,8 fois plus petit sur un CNN moderne (ConvNeXt-Tiny), avec une précision comparable. De plus, nous prouvons que la réécriture peut être étendue aux architectures de transformeurs.

English

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is no smaller than before pruning. We present an exact structural rewrite, which we call minimization, that converts a masked network into a smaller dense network with the same forward function up to floating-point rounding. The Squeeze-Release cycle iterates pruning and minimization with an intermediate release step that re-enables the exact-zero positions inside the compacted tensors as small calibrated noise, turning otherwise wasted capacity back into trainable parameters. Successive cycles use that capacity to find structural redundancy a single pass cannot reach. We additionally introduce CompensatedLayerNorm, a function-preserving replacement for LayerNorm that extends minimization to channel reduction across LayerNorm-equipped residual streams. Squeeze-Release compresses the deployable network to 39x smaller than the unpruned model on a fully-connected model network and 14.8x smaller on modern CNN (ConvNeXt-Tiny), at comparable accuracy. In addition we prove that the rewrite can be extended to transformer architectures.