GPTailor : Élagage de modèles de langage massifs par découpage et raccordement de couches

papers.abstract

Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en compréhension et génération du langage. Cependant, une telle performance impressionnante s'accompagne généralement d'une taille de modèle substantielle, ce qui pose des défis importants en matière de déploiement et d'inférence. Bien que l'élagage structuré des paramètres du modèle offre une voie prometteuse pour réduire les coûts de calcul lors du déploiement, les méthodes actuelles se concentrent principalement sur l'élagage d'un seul modèle. Dans ce travail, nous développons une nouvelle stratégie pour compresser les modèles en combinant ou fusionnant stratégiquement des couches de variantes de modèles affinés, ce qui préserve les capacités du modèle original en agrégeant les compétences accentuées dans différents affinages. Nous formulons l'optimisation de ces LLMs comme un problème d'optimisation d'ordre zéro, en adoptant un espace de recherche qui supporte trois opérations différentes : (1) Suppression de couches, (2) Sélection de couches parmi différents modèles candidats, et (3) Fusion de couches. Nos expériences montrent que cette approche conduit à un élagage compétitif des modèles, par exemple, pour les familles de modèles Llama2-13B, nos modèles compressés maintiennent environ 97,3 % de la performance originale tout en supprimant environ 25 % des paramètres, surpassant significativement les méthodes précédentes de l'état de l'art. Le code est disponible à l'adresse https://github.com/Guinan-Su/auto-merge-llm.

English

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in deployment and inference. While structured pruning of model parameters offers a promising way to reduce computational costs at deployment time, current methods primarily focus on single model pruning. In this work, we develop a novel strategy to compress models by strategically combining or merging layers from finetuned model variants, which preserves the original model's abilities by aggregating capabilities accentuated in different finetunes. We pose the optimal tailoring of these LLMs as a zero-order optimization problem, adopting a search space that supports three different operations: (1) Layer removal, (2) Layer selection from different candidate models, and (3) Layer merging. Our experiments demonstrate that this approach leads to competitive model pruning, for example, for the Llama2-13B model families, our compressed models maintain approximately 97.3\% of the original performance while removing sim25% of parameters, significantly outperforming previous state-of-the-art methods. The code is available at https://github.com/Guinan-Su/auto-merge-llm.

GPTailor : Élagage de modèles de langage massifs par découpage et raccordement de couches

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

papers.abstract

Support