DarwinLM: Evolutionäres strukturiertes Pruning von großen Sprachmodellen
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
Autoren: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bedeutende Erfolge in verschiedenen NLP-Aufgaben erzielt. Allerdings begrenzen ihre enormen Rechenkosten die breite Nutzung, insbesondere in Echtzeitanwendungen. Strukturiertes Pruning bietet eine effektive Lösung, indem es Modelle komprimiert und direkt end-to-end Geschwindigkeitsverbesserungen liefert, unabhängig von der Hardwareumgebung. Gleichzeitig zeigen verschiedene Komponenten des Modells unterschiedliche Sensitivitäten gegenüber dem Pruning, was eine nicht einheitliche Modellkompression erfordert. Ein Pruning-Verfahren sollte jedoch nicht nur eine leistungsfähige Substruktur identifizieren, sondern auch das Training nach der Kompression berücksichtigen. Zu diesem Zweck schlagen wir \sysname vor, eine Methode für trainingsbewusstes, strukturiertes Pruning. \sysname basiert auf einem evolutionären Suchprozess, der in jeder Generation mehrere Nachfolgermodelle durch Mutation erzeugt und die am besten geeigneten für das Überleben auswählt. Um den Effekt des Post-Trainings zu bewerten, integrieren wir einen leichten, mehrstufigen Trainingsprozess innerhalb der Nachfolgerpopulation, der schrittweise die Anzahl der Tokens erhöht und schlecht abschneidende Modelle in jeder Auswahlphase eliminiert. Wir validieren unsere Methode durch umfangreiche Experimente mit Llama-2-7B, Llama-3.1-8B und Qwen-2.5-14B-Instruct und erzielen dabei state-of-the-art Leistungen für strukturiertes Pruning. Beispielsweise übertrifft \sysname ShearedLlama, während es während des Post-Kompressionstrainings 5-mal weniger Trainingsdaten benötigt.
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary