SostituisciMe: Semplificazione della Rete tramite Pruning degli Strati e Trasformazioni Lineari
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations
May 5, 2025
Autori: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI
Abstract
Presentiamo ReplaceMe, un metodo generalizzato di pruning in profondità che non richiede addestramento e sostituisce efficacemente i blocchi transformer con un'operazione lineare, mantenendo alte prestazioni per bassi rapporti di compressione. A differenza degli approcci convenzionali di pruning che necessitano di ulteriore addestramento o fine-tuning, il nostro metodo richiede solo un piccolo dataset di calibrazione utilizzato per stimare una trasformazione lineare che approssima i blocchi rimossi. Questa mappatura lineare stimata può essere integrata senza soluzione di continuità con i restanti blocchi transformer, eliminando la necessità di parametri aggiuntivi nella rete. I nostri esperimenti dimostrano che ReplaceMe supera costantemente altri approcci che non richiedono addestramento e rimane altamente competitivo rispetto ai metodi di pruning all'avanguardia che implicano un esteso riaddestramento/fine-tuning e modifiche architetturali. Applicato a diversi modelli linguistici di grandi dimensioni (LLM), ReplaceMe raggiunge fino al 25% di pruning mantenendo circa il 90% delle prestazioni originali del modello su benchmark aperti - senza alcun passaggio di addestramento o recupero, risultando in un sovraccarico computazionale minimo (vedi Fig.1). Forniamo una libreria open-source che implementa ReplaceMe insieme a diverse tecniche all'avanguardia di pruning in profondità, disponibile in questo repository.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that
effectively replaces transformer blocks with a linear operation, while
maintaining high performance for low compression ratios. In contrast to
conventional pruning approaches that require additional training or
fine-tuning, our approach requires only a small calibration dataset that is
used to estimate a linear transformation to approximate the pruned blocks. This
estimated linear mapping can be seamlessly merged with the remaining
transformer blocks, eliminating the need for any additional network parameters.
Our experiments show that ReplaceMe consistently outperforms other
training-free approaches and remains highly competitive with state-of-the-art
pruning methods that involve extensive retraining/fine-tuning and architectural
modifications. Applied to several large language models (LLMs), ReplaceMe
achieves up to 25% pruning while retaining approximately 90% of the original
model's performance on open benchmarks - without any training or healing steps,
resulting in minimal computational overhead (see Fig.1). We provide an
open-source library implementing ReplaceMe alongside several state-of-the-art
depth pruning techniques, available at this repository.