ChatPaper.aiChatPaper

Netwerkvereenvoudiging via Laagpruning en Lineaire Transformaties

ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations

May 5, 2025
Auteurs: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI

Samenvatting

We introduceren ReplaceMe, een algemene trainingsvrije dieptesnoeimethode die transformerblokken effectief vervangt door een lineaire operatie, terwijl hoge prestaties worden behouden bij lage compressieverhoudingen. In tegenstelling tot conventionele snoeiaanpakken die aanvullende training of fine-tuning vereisen, vereist onze aanpak slechts een kleine kalibratiedataset die wordt gebruikt om een lineaire transformatie te schatten om de gesnoeide blokken te benaderen. Deze geschatte lineaire afbeelding kan naadloos worden samengevoegd met de overgebleven transformerblokken, waardoor de noodzaak van aanvullende netwerkparameters wordt geëlimineerd. Onze experimenten tonen aan dat ReplaceMe consistent beter presteert dan andere trainingsvrije benaderingen en zeer concurrerend blijft met state-of-the-art snoeimethoden die uitgebreide hertraining/fine-tuning en architectonische aanpassingen omvatten. Toegepast op verschillende grote taalmodelen (LLM's), bereikt ReplaceMe tot 25% snoei terwijl ongeveer 90% van de oorspronkelijke prestaties van het model wordt behouden op open benchmarks - zonder enige training of herstelstappen, wat resulteert in minimale rekenoverhead (zie Fig.1). We bieden een open-source bibliotheek die ReplaceMe implementeert, samen met verschillende state-of-the-art dieptesnoeitechnieken, beschikbaar in deze repository.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that effectively replaces transformer blocks with a linear operation, while maintaining high performance for low compression ratios. In contrast to conventional pruning approaches that require additional training or fine-tuning, our approach requires only a small calibration dataset that is used to estimate a linear transformation to approximate the pruned blocks. This estimated linear mapping can be seamlessly merged with the remaining transformer blocks, eliminating the need for any additional network parameters. Our experiments show that ReplaceMe consistently outperforms other training-free approaches and remains highly competitive with state-of-the-art pruning methods that involve extensive retraining/fine-tuning and architectural modifications. Applied to several large language models (LLMs), ReplaceMe achieves up to 25% pruning while retaining approximately 90% of the original model's performance on open benchmarks - without any training or healing steps, resulting in minimal computational overhead (see Fig.1). We provide an open-source library implementing ReplaceMe alongside several state-of-the-art depth pruning techniques, available at this repository.
PDF244May 6, 2025