DarwinLM: Poda Estrutural Evolutiva de Modelos de Linguagem de Grande Escala
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
Autores: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso significativo em diversas tarefas de PLN. No entanto, seus elevados custos computacionais limitam seu uso amplo, especialmente em aplicações em tempo real. A poda estruturada oferece uma solução eficaz ao comprimir os modelos e proporcionar melhorias de velocidade de ponta a ponta diretamente, independentemente do ambiente de hardware. Enquanto isso, diferentes componentes do modelo exibem sensibilidades variadas em relação à poda, exigindo uma compressão não uniforme do modelo. No entanto, um método de poda não deve apenas identificar uma subestrutura capaz, mas também considerar o treinamento pós-compressão. Para isso, propomos o \sysname, um método de poda estruturada consciente do treinamento. O \sysname se baseia em um processo de busca evolutiva, gerando múltiplos modelos descendentes em cada geração por meio de mutação e selecionando os mais aptos para sobreviver. Para avaliar o efeito do pós-treinamento, incorporamos um processo de treinamento leve e em múltiplas etapas dentro da população de descendentes, aumentando progressivamente o número de tokens e eliminando modelos com desempenho insatisfatório em cada etapa de seleção. Validamos nosso método por meio de extensos experimentos com Llama-2-7B, Llama-3.1-8B e Qwen-2.5-14B-Instruct, alcançando desempenho de ponta para poda estruturada. Por exemplo, o \sysname supera o ShearedLlama enquanto requer 5 vezes menos dados de treinamento durante o treinamento pós-compressão.
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary