DarwinLM: 大規模言語モデルの進化的構造化プルーニング
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
著者: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
要旨
大規模言語モデル(LLM)は、さまざまなNLPタスクにおいて大きな成功を収めています。しかし、その膨大な計算コストが、特にリアルタイムアプリケーションでの広範な利用を制限しています。構造化プルーニングは、ハードウェア環境に関係なくモデルを圧縮し、エンドツーエンドの速度向上を直接提供する効果的な解決策を提供します。一方で、モデルの異なるコンポーネントはプルーニングに対して異なる感度を示すため、非均一なモデル圧縮が求められます。しかし、プルーニング手法は、有能なサブ構造を特定するだけでなく、圧縮後のトレーニングも考慮する必要があります。この目的のために、我々はトレーニングを考慮した構造化プルーニング手法である\sysnameを提案します。\sysnameは、進化的探索プロセスに基づいており、各世代で突然変異を通じて複数の子孫モデルを生成し、最も適したものを選択します。トレーニング後の効果を評価するために、子孫集団内で軽量な多段階トレーニングプロセスを組み込み、トークンの数を段階的に増やし、各選択段階で性能の低いモデルを排除します。我々は、Llama-2-7B、Llama-3.1-8B、およびQwen-2.5-14B-Instructを用いた広範な実験を通じてこの手法を検証し、構造化プルーニングにおいて最先端の性能を達成しました。例えば、\sysnameはShearedLlamaを上回りながら、圧縮後のトレーニングにおいて5倍少ないトレーニングデータを必要とします。
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary