DarwinLM: Evolutionäres strukturiertes Pruning von großen Sprachmodellen

papers.abstract

Große Sprachmodelle (LLMs) haben bedeutende Erfolge in verschiedenen NLP-Aufgaben erzielt. Allerdings begrenzen ihre enormen Rechenkosten die breite Nutzung, insbesondere in Echtzeitanwendungen. Strukturiertes Pruning bietet eine effektive Lösung, indem es Modelle komprimiert und direkt end-to-end Geschwindigkeitsverbesserungen liefert, unabhängig von der Hardwareumgebung. Gleichzeitig zeigen verschiedene Komponenten des Modells unterschiedliche Sensitivitäten gegenüber dem Pruning, was eine nicht einheitliche Modellkompression erfordert. Ein Pruning-Verfahren sollte jedoch nicht nur eine leistungsfähige Substruktur identifizieren, sondern auch das Training nach der Kompression berücksichtigen. Zu diesem Zweck schlagen wir \sysname vor, eine Methode für trainingsbewusstes, strukturiertes Pruning. \sysname basiert auf einem evolutionären Suchprozess, der in jeder Generation mehrere Nachfolgermodelle durch Mutation erzeugt und die am besten geeigneten für das Überleben auswählt. Um den Effekt des Post-Trainings zu bewerten, integrieren wir einen leichten, mehrstufigen Trainingsprozess innerhalb der Nachfolgerpopulation, der schrittweise die Anzahl der Tokens erhöht und schlecht abschneidende Modelle in jeder Auswahlphase eliminiert. Wir validieren unsere Methode durch umfangreiche Experimente mit Llama-2-7B, Llama-3.1-8B und Qwen-2.5-14B-Instruct und erzielen dabei state-of-the-art Leistungen für strukturiertes Pruning. Beispielsweise übertrifft \sysname ShearedLlama, während es während des Post-Kompressionstrainings 5-mal weniger Trainingsdaten benötigt.

English

Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for non-uniform model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for training-aware structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring 5times less training data during post-compression training.

DarwinLM: Evolutionäres strukturiertes Pruning von großen Sprachmodellen

DarwinLM: Evolutionary Structured Pruning of Large Language Models

papers.abstract

Support