GPTailor : Élagage de modèles de langage massifs par découpage et raccordement de couches
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching
June 25, 2025
Auteurs: Guinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en compréhension et génération du langage. Cependant, une telle performance impressionnante s'accompagne généralement d'une taille de modèle substantielle, ce qui pose des défis importants en matière de déploiement et d'inférence. Bien que l'élagage structuré des paramètres du modèle offre une voie prometteuse pour réduire les coûts de calcul lors du déploiement, les méthodes actuelles se concentrent principalement sur l'élagage d'un seul modèle. Dans ce travail, nous développons une nouvelle stratégie pour compresser les modèles en combinant ou fusionnant stratégiquement des couches de variantes de modèles affinés, ce qui préserve les capacités du modèle original en agrégeant les compétences accentuées dans différents affinages. Nous formulons l'optimisation de ces LLMs comme un problème d'optimisation d'ordre zéro, en adoptant un espace de recherche qui supporte trois opérations différentes : (1) Suppression de couches, (2) Sélection de couches parmi différents modèles candidats, et (3) Fusion de couches. Nos expériences montrent que cette approche conduit à un élagage compétitif des modèles, par exemple, pour les familles de modèles Llama2-13B, nos modèles compressés maintiennent environ 97,3 % de la performance originale tout en supprimant environ 25 % des paramètres, surpassant significativement les méthodes précédentes de l'état de l'art. Le code est disponible à l'adresse https://github.com/Guinan-Su/auto-merge-llm.
English
Large language models (LLMs) have shown remarkable capabilities in language
understanding and generation. However, such impressive capability typically
comes with a substantial model size, which presents significant challenges in
deployment and inference. While structured pruning of model parameters offers a
promising way to reduce computational costs at deployment time, current methods
primarily focus on single model pruning. In this work, we develop a novel
strategy to compress models by strategically combining or merging layers from
finetuned model variants, which preserves the original model's abilities by
aggregating capabilities accentuated in different finetunes. We pose the
optimal tailoring of these LLMs as a zero-order optimization problem, adopting
a search space that supports three different operations: (1) Layer removal, (2)
Layer selection from different candidate models, and (3) Layer merging. Our
experiments demonstrate that this approach leads to competitive model pruning,
for example, for the Llama2-13B model families, our compressed models maintain
approximately 97.3\% of the original performance while removing sim25% of
parameters, significantly outperforming previous state-of-the-art methods. The
code is available at https://github.com/Guinan-Su/auto-merge-llm.