ChatPaper.aiChatPaper

ReplaceMe : Simplification de réseaux via élagage de couches et transformations linéaires

ReplaceMe: Network Simplification via Layer Pruning and Linear Transformations

May 5, 2025
Auteurs: Dmitriy Shopkhoev, Ammar Ali, Magauiya Zhussip, Valentin Malykh, Stamatios Lefkimmiatis, Nikos Komodakis, Sergey Zagoruyko
cs.AI

Résumé

Nous présentons ReplaceMe, une méthode généralisée d'élagage en profondeur sans entraînement qui remplace efficacement les blocs de transformateurs par une opération linéaire, tout en maintenant des performances élevées pour des taux de compression faibles. Contrairement aux approches d'élagage conventionnelles qui nécessitent un entraînement ou un ajustement supplémentaire, notre méthode ne requiert qu'un petit jeu de données de calibration utilisé pour estimer une transformation linéaire afin d'approximer les blocs élagués. Cette transformation linéaire estimée peut être intégrée de manière transparente avec les blocs de transformateurs restants, éliminant ainsi le besoin de paramètres réseau supplémentaires. Nos expériences montrent que ReplaceMe surpasse systématiquement les autres approches sans entraînement et reste très compétitive par rapport aux méthodes d'élagage de pointe qui impliquent un réentraînement/ajustement approfondi et des modifications architecturales. Appliqué à plusieurs grands modèles de langage (LLMs), ReplaceMe permet d'élaguer jusqu'à 25% des paramètres tout en conservant environ 90% des performances du modèle original sur des benchmarks ouverts - sans aucune étape d'entraînement ou de récupération, ce qui entraîne une surcharge computationnelle minimale (voir Fig.1). Nous fournissons une bibliothèque open-source implémentant ReplaceMe ainsi que plusieurs techniques d'élagage en profondeur de pointe, disponible dans ce dépôt.
English
We introduce ReplaceMe, a generalized training-free depth pruning method that effectively replaces transformer blocks with a linear operation, while maintaining high performance for low compression ratios. In contrast to conventional pruning approaches that require additional training or fine-tuning, our approach requires only a small calibration dataset that is used to estimate a linear transformation to approximate the pruned blocks. This estimated linear mapping can be seamlessly merged with the remaining transformer blocks, eliminating the need for any additional network parameters. Our experiments show that ReplaceMe consistently outperforms other training-free approaches and remains highly competitive with state-of-the-art pruning methods that involve extensive retraining/fine-tuning and architectural modifications. Applied to several large language models (LLMs), ReplaceMe achieves up to 25% pruning while retaining approximately 90% of the original model's performance on open benchmarks - without any training or healing steps, resulting in minimal computational overhead (see Fig.1). We provide an open-source library implementing ReplaceMe alongside several state-of-the-art depth pruning techniques, available at this repository.

Summary

AI-Generated Summary

PDF192May 6, 2025