Netwerkvereenvoudiging via Laagpruning en Lineaire Transformaties
ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations
May 5, 2025
Auteurs: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI
Samenvatting
We introduceren ReplaceMe, een algemene trainingsvrije dieptesnoeimethode die
transformerblokken effectief vervangt door een lineaire operatie, terwijl
hoge prestaties worden behouden bij lage compressieverhoudingen. In tegenstelling tot
conventionele snoeiaanpakken die aanvullende training of
fine-tuning vereisen, vereist onze aanpak slechts een kleine kalibratiedataset die
wordt gebruikt om een lineaire transformatie te schatten om de gesnoeide blokken te benaderen. Deze
geschatte lineaire afbeelding kan naadloos worden samengevoegd met de overgebleven
transformerblokken, waardoor de noodzaak van aanvullende netwerkparameters wordt geëlimineerd.
Onze experimenten tonen aan dat ReplaceMe consistent beter presteert dan andere
trainingsvrije benaderingen en zeer concurrerend blijft met state-of-the-art
snoeimethoden die uitgebreide hertraining/fine-tuning en architectonische
aanpassingen omvatten. Toegepast op verschillende grote taalmodelen (LLM's), bereikt ReplaceMe
tot 25% snoei terwijl ongeveer 90% van de oorspronkelijke prestaties van het model
wordt behouden op open benchmarks - zonder enige training of herstelstappen,
wat resulteert in minimale rekenoverhead (zie Fig.1). We bieden een
open-source bibliotheek die ReplaceMe implementeert, samen met verschillende state-of-the-art
dieptesnoeitechnieken, beschikbaar in deze repository.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that
effectively replaces transformer blocks with a linear operation, while
maintaining high performance for low compression ratios. In contrast to
conventional pruning approaches that require additional training or
fine-tuning, our approach requires only a small calibration dataset that is
used to estimate a linear transformation to approximate the pruned blocks. This
estimated linear mapping can be seamlessly merged with the remaining
transformer blocks, eliminating the need for any additional network parameters.
Our experiments show that ReplaceMe consistently outperforms other
training-free approaches and remains highly competitive with state-of-the-art
pruning methods that involve extensive retraining/fine-tuning and architectural
modifications. Applied to several large language models (LLMs), ReplaceMe
achieves up to 25% pruning while retaining approximately 90% of the original
model's performance on open benchmarks - without any training or healing steps,
resulting in minimal computational overhead (see Fig.1). We provide an
open-source library implementing ReplaceMe alongside several state-of-the-art
depth pruning techniques, available at this repository.