Сжатие-Освобождение: Итеративное прореживание с точной структурной минимизацией

Аннотация

Неструктурированная обрезка порождает разреженные тензоры весов, но стандартная реализация сохраняет размерности тензоров неизменными, поэтому развёрнутая модель не становится меньше, чем до обрезки. Мы предлагаем точную структурную перезапись, называемую минимизацией, которая преобразует маскированную сеть в более компактную плотную сеть, сохраняющую ту же прямую функцию с точностью до округления с плавающей точкой. Цикл «сжатие-освобождение» итеративно повторяет процедуры обрезки и минимизации с промежуточным шагом освобождения, который включает в себя повторное включение точных нулевых позиций внутри уплотнённых тензоров в виде малого калиброванного шума, превращая в противном случае бесполезную ёмкость обратно в обучаемые параметры. Последовательные циклы используют эту ёмкость для обнаружения структурной избыточности, недоступной при однократном проходе. Мы также вводим CompensatedLayerNorm — функционально сохраняющую замену для LayerNorm, которая расширяет минимизацию на сокращение каналов в остаточных потоках с LayerNorm. Сжатие-освобождение уменьшает развёртываемую сеть в 39 раз по сравнению с необрезанной моделью для полносвязной сети и в 14,8 раза для современной CNN (ConvNeXt-Tiny) при сравнимой точности. Кроме того, мы доказываем, что перезапись может быть расширена на архитектуры трансформеров.

English

Unstructured pruning produces sparse weight tensors, but the standard implementation keeps tensor shapes unchanged so the deployed model is no smaller than before pruning. We present an exact structural rewrite, which we call minimization, that converts a masked network into a smaller dense network with the same forward function up to floating-point rounding. The Squeeze-Release cycle iterates pruning and minimization with an intermediate release step that re-enables the exact-zero positions inside the compacted tensors as small calibrated noise, turning otherwise wasted capacity back into trainable parameters. Successive cycles use that capacity to find structural redundancy a single pass cannot reach. We additionally introduce CompensatedLayerNorm, a function-preserving replacement for LayerNorm that extends minimization to channel reduction across LayerNorm-equipped residual streams. Squeeze-Release compresses the deployable network to 39x smaller than the unpruned model on a fully-connected model network and 14.8x smaller on modern CNN (ConvNeXt-Tiny), at comparable accuracy. In addition we prove that the rewrite can be extended to transformer architectures.