Squeeze-Release: Iteratief Snoeien met Exacte Structurele Minimalisatie

Samenvatting

Ongestructureerd snoeien produceert sparse gewichtstensoren, maar de standaardimplementatie behoudt de tensorvormen, waardoor het ingezette model niet kleiner is dan vóór het snoeien. We presenteren een exacte structurele herschrijving, die we minimalisatie noemen, die een gemaskeerd netwerk omzet in een kleiner dicht netwerk met dezelfde voorwaartse functie, op floating-point-afronding na. De Squeeze-Release-cyclus doorloopt snoeien en minimalisatie met een tussentijdse vrijgave-stap die de exact-nulposities in de gecomprimeerde tensoren opnieuw inschakelt als kleine gekalibreerde ruis, waardoor anders nutteloze capaciteit weer wordt omgezet in trainbare parameters. Opeenvolgende cycli gebruiken die capaciteit om structurele redundantie te vinden die een enkele pas niet kan bereiken. Daarnaast introduceren we CompensatedLayerNorm, een functiebehoudende vervanging voor LayerNorm die minimalisatie uitbreidt naar kanaalreductie over residustromen die zijn uitgerust met LayerNorm. Squeeze-Release comprimeert het inzetbare netwerk tot 39 keer kleiner dan het ongesnoeide model op een volledig verbonden modelnetwerk en 14,8 keer kleiner op een moderne CNN (ConvNeXt-Tiny), bij vergelijkbare nauwkeurigheid. Daarnaast bewijzen we dat de herschrijving kan worden uitgebreid naar transformerarchitecturen.

English

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is no smaller than before pruning. We present an exact structural rewrite, which we call minimization, that converts a masked network into a smaller dense network with the same forward function up to floating-point rounding. The Squeeze-Release cycle iterates pruning and minimization with an intermediate release step that re-enables the exact-zero positions inside the compacted tensors as small calibrated noise, turning otherwise wasted capacity back into trainable parameters. Successive cycles use that capacity to find structural redundancy a single pass cannot reach. We additionally introduce CompensatedLayerNorm, a function-preserving replacement for LayerNorm that extends minimization to channel reduction across LayerNorm-equipped residual streams. Squeeze-Release compresses the deployable network to 39x smaller than the unpruned model on a fully-connected model network and 14.8x smaller on modern CNN (ConvNeXt-Tiny), at comparable accuracy. In addition we prove that the rewrite can be extended to transformer architectures.