ReplaceMe: Netzwerkvereinfachung durch Layer-Pruning und lineare Transformationen
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations
May 5, 2025
Autoren: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI
Zusammenfassung
Wir stellen ReplaceMe vor, eine generalisierte, trainingsfreie Methode zur Tiefenreduzierung, die Transformer-Blöcke effektiv durch eine lineare Operation ersetzt und dabei eine hohe Leistung bei niedrigen Kompressionsraten beibehält. Im Gegensatz zu herkömmlichen Reduzierungsansätzen, die zusätzliches Training oder Feinabstimmung erfordern, benötigt unser Ansatz lediglich einen kleinen Kalibrierungsdatensatz, der zur Schätzung einer linearen Transformation verwendet wird, um die reduzierten Blöcke zu approximieren. Diese geschätzte lineare Abbildung kann nahtlos mit den verbleibenden Transformer-Blöcken zusammengeführt werden, wodurch der Bedarf an zusätzlichen Netzwerkparametern entfällt. Unsere Experimente zeigen, dass ReplaceMe andere trainingsfreie Ansätze konsequent übertrifft und mit state-of-the-art Reduzierungsmethoden, die umfangreiche Neuausbildungen/Feinabstimmungen und architektonische Modifikationen beinhalten, hochgradig wettbewerbsfähig bleibt. Angewendet auf mehrere große Sprachmodelle (LLMs), erreicht ReplaceMe eine Reduzierung von bis zu 25 %, während etwa 90 % der ursprünglichen Leistung des Modells auf offenen Benchmarks erhalten bleiben – ohne jegliche Trainings- oder Heilungsschritte, was zu minimalem Rechenaufwand führt (siehe Abb. 1). Wir stellen eine Open-Source-Bibliothek zur Verfügung, die ReplaceMe zusammen mit mehreren state-of-the-art Techniken zur Tiefenreduzierung implementiert, verfügbar in diesem Repository.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that
effectively replaces transformer blocks with a linear operation, while
maintaining high performance for low compression ratios. In contrast to
conventional pruning approaches that require additional training or
fine-tuning, our approach requires only a small calibration dataset that is
used to estimate a linear transformation to approximate the pruned blocks. This
estimated linear mapping can be seamlessly merged with the remaining
transformer blocks, eliminating the need for any additional network parameters.
Our experiments show that ReplaceMe consistently outperforms other
training-free approaches and remains highly competitive with state-of-the-art
pruning methods that involve extensive retraining/fine-tuning and architectural
modifications. Applied to several large language models (LLMs), ReplaceMe
achieves up to 25% pruning while retaining approximately 90% of the original
model's performance on open benchmarks - without any training or healing steps,
resulting in minimal computational overhead (see Fig.1). We provide an
open-source library implementing ReplaceMe alongside several state-of-the-art
depth pruning techniques, available at this repository.Summary
AI-Generated Summary