DarwinLM: Potatura Strutturale Evolutiva di Modelli Linguistici di Grandi Dimensioni
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
Autori: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un successo significativo in vari compiti di NLP. Tuttavia, i loro elevati costi computazionali ne limitano l'uso diffuso, specialmente nelle applicazioni in tempo reale. La potatura strutturata offre una soluzione efficace comprimendo i modelli e fornendo direttamente miglioramenti di velocità end-to-end, indipendentemente dall'ambiente hardware. Nel frattempo, diverse componenti del modello mostrano sensibilità variabili alla potatura, richiedendo una compressione non uniforme del modello. Tuttavia, un metodo di potatura non dovrebbe solo identificare una sottostruttura capace, ma anche considerare l'addestramento post-compressione. A tal fine, proponiamo \sysname, un metodo per la potatura strutturata consapevole dell'addestramento. \sysname si basa su un processo di ricerca evolutiva, generando più modelli figli in ogni generazione attraverso mutazione e selezionando i più adatti per la sopravvivenza. Per valutare l'effetto dell'addestramento posteriore, incorporiamo un processo di addestramento leggero e multi-step all'interno della popolazione dei figli, aumentando progressivamente il numero di token ed eliminando i modelli con prestazioni scadenti in ogni fase di selezione. Validiamo il nostro metodo attraverso esperimenti estesi su Llama-2-7B, Llama-3.1-8B e Qwen-2.5-14B-Instruct, raggiungendo prestazioni all'avanguardia per la potatura strutturata. Ad esempio, \sysname supera ShearedLlama richiedendo 5 volte meno dati di addestramento durante l'addestramento post-compressione.
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary