Squeeze-Release: Iteratives Pruning mit exakter struktureller Minimierung

Zusammenfassung

Unstrukturiertes Pruning erzeugt dünnbesetzte Gewichtstensoren, jedoch bleiben bei der Standardimplementierung die Tensorformen unverändert, sodass das eingesetzte Modell nicht kleiner ist als vor dem Pruning. Wir stellen eine exakte strukturelle Umformung vor, die wir als Minimierung bezeichnen und die ein maskiertes Netzwerk in ein kleineres dichtes Netzwerk mit derselben Vorwärtsfunktion bis auf Gleitkomma-Rundung überführt. Der Squeeze-Release-Zyklus wiederholt Pruning und Minimierung mit einem zwischengeschalteten Freigabeschritt, der die exakten Nullpositionen innerhalb der verdichteten Tensoren als kleines kalibriertes Rauschen wieder aktiviert und so ansonsten ungenutzte Kapazität wieder in trainierbare Parameter umwandelt. Aufeinanderfolgende Zyklen nutzen diese Kapazität, um strukturelle Redundanz zu finden, die ein einzelner Durchlauf nicht erreichen kann. Zusätzlich führen wir CompensatedLayerNorm ein, eine funktionserhaltende Ersetzung für LayerNorm, die die Minimierung auf die Kanalreduktion über mit LayerNorm ausgestattete Residualströme ausdehnt. Squeeze-Release komprimiert das einsetzbare Netzwerk auf das 39-fache des unpruned Modells bei einem vollständig verbundenen Modellnetzwerk und auf das 14,8-fache bei modernen CNNs (ConvNeXt-Tiny), bei vergleichbarer Genauigkeit. Darüber hinaus beweisen wir, dass die Umformung auf Transformer-Architekturen erweitert werden kann.

English

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is no smaller than before pruning. We present an exact structural rewrite, which we call minimization, that converts a masked network into a smaller dense network with the same forward function up to floating-point rounding. The Squeeze-Release cycle iterates pruning and minimization with an intermediate release step that re-enables the exact-zero positions inside the compacted tensors as small calibrated noise, turning otherwise wasted capacity back into trainable parameters. Successive cycles use that capacity to find structural redundancy a single pass cannot reach. We additionally introduce CompensatedLayerNorm, a function-preserving replacement for LayerNorm that extends minimization to channel reduction across LayerNorm-equipped residual streams. Squeeze-Release compresses the deployable network to 39x smaller than the unpruned model on a fully-connected model network and 14.8x smaller on modern CNN (ConvNeXt-Tiny), at comparable accuracy. In addition we prove that the rewrite can be extended to transformer architectures.