DarwinLM: Evolutionaire Gestructureerde Pruning van Grote Taalmodellen
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
Auteurs: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben aanzienlijk succes behaald in diverse NLP-taken. Hun enorme rekenkundige kosten beperken echter hun brede toepassing, vooral in realtime-toepassingen. Gestructureerd snoeien biedt een effectieve oplossing door modellen te comprimeren en direct end-to-end snelheidsverbeteringen te bieden, ongeacht de hardwareomgeving. Tegelijkertijd vertonen verschillende componenten van het model verschillende gevoeligheden voor snoeien, wat vraagt om niet-uniforme modelcompressie. Een snoeimethode moet echter niet alleen een capabele substructuur identificeren, maar ook rekening houden met training na compressie. Hiertoe stellen we \sysname voor, een methode voor trainingbewust gestructureerd snoeien. \sysname bouwt voort op een evolutionair zoekproces, waarbij in elke generatie meerdere afstammingsmodellen worden gegenereerd door mutatie, en de meest geschikte worden geselecteerd voor overleving. Om het effect van training na compressie te beoordelen, integreren we een lichtgewicht, meerstaps trainingsproces binnen de afstammingspopulatie, waarbij het aantal tokens progressief wordt verhoogd en slecht presterende modellen in elke selectiefase worden geëlimineerd. We valideren onze methode door uitgebreide experimenten op Llama-2-7B, Llama-3.1-8B en Qwen-2.5-14B-Instruct, waarbij we state-of-the-art prestaties behalen voor gestructureerd snoeien. \sysname overtreft bijvoorbeeld ShearedLlama terwijl het 5 keer minder trainingsdata vereist tijdens de training na compressie.
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary