ChatPaper.aiChatPaper

DarwinLM : Élagage structurel évolutif des grands modèles de langage

DarwinLM: Evolutionary Structured Pruning of Large Language Models

February 11, 2025
Auteurs: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont obtenu un succès significatif dans diverses tâches de traitement du langage naturel (NLP). Cependant, leurs coûts de calcul massifs limitent leur utilisation généralisée, en particulier dans les applications en temps réel. L'élagage structuré offre une solution efficace en compressant les modèles et en fournissant directement des améliorations de vitesse de bout en bout, indépendamment de l'environnement matériel. Par ailleurs, les différents composants du modèle présentent des sensibilités variables à l'égard de l'élagage, nécessitant une compression non uniforme du modèle. Cependant, une méthode d'élagage ne doit pas seulement identifier une sous-structure capable, mais aussi prendre en compte l'entraînement post-compression. À cette fin, nous proposons \sysname, une méthode d'élagage structuré prenant en compte l'entraînement. \sysname s'appuie sur un processus de recherche évolutive, générant plusieurs modèles descendants à chaque génération par mutation, et sélectionnant les plus aptes pour survivre. Pour évaluer l'effet de l'entraînement postérieur, nous intégrons un processus d'entraînement léger et multi-étapes au sein de la population de descendants, augmentant progressivement le nombre de tokens et éliminant les modèles peu performants à chaque étape de sélection. Nous validons notre méthode par des expériences approfondies sur Llama-2-7B, Llama-3.1-8B et Qwen-2.5-14B-Instruct, atteignant des performances de pointe pour l'élagage structuré. Par exemple, \sysname surpasse ShearedLlama tout en nécessitant 5 fois moins de données d'entraînement lors de l'entraînement post-compression.
English
Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for non-uniform model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for training-aware structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring 5times less training data during post-compression training.

Summary

AI-Generated Summary

PDF187February 17, 2025