DarwinLM: Эволюционное структурированное прореживание больших языковых моделей
DarwinLM: Evolutionary Structured Pruning of Large Language Models
February 11, 2025
Авторы: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh
cs.AI
Аннотация
Крупные языковые модели (LLM) достигли значительных успехов в решении различных задач обработки естественного языка (NLP). Однако их высокая вычислительная стоимость ограничивает их широкое применение, особенно в задачах, требующих работы в реальном времени. Структурное прореживание предлагает эффективное решение, сжимая модели и обеспечивая прямое улучшение скорости работы от начала до конца, независимо от аппаратной среды. При этом различные компоненты модели демонстрируют разную чувствительность к прореживанию, что требует неоднородного сжатия модели. Однако метод прореживания должен не только выявлять подходящую подструктуру, но и учитывать обучение после сжатия. Для этого мы предлагаем \sysname — метод структурированного прореживания с учетом обучения. \sysname основан на эволюционном поиске, генерируя в каждом поколении несколько дочерних моделей с помощью мутаций и отбирая наиболее приспособленные для выживания. Чтобы оценить эффект пост-обучения, мы включаем в процесс легковесное многоэтапное обучение в популяции дочерних моделей, постепенно увеличивая количество токенов и отсеивая слабо работающие модели на каждом этапе отбора. Мы подтверждаем эффективность нашего метода с помощью обширных экспериментов на моделях Llama-2-7B, Llama-3.1-8B и Qwen-2.5-14B-Instruct, достигая передовых результатов в области структурного прореживания. Например, \sysname превосходит ShearedLlama, требуя в 5 раз меньше данных для обучения после сжатия.
English
Large Language Models (LLMs) have achieved significant success across various
NLP tasks. However, their massive computational costs limit their widespread
use, particularly in real-time applications. Structured pruning offers an
effective solution by compressing models and directly providing end-to-end
speed improvements, regardless of the hardware environment. Meanwhile,
different components of the model exhibit varying sensitivities towards
pruning, calling for non-uniform model compression. However, a pruning
method should not only identify a capable substructure, but also account for
post-compression training. To this end, we propose \sysname, a method for
training-aware structured pruning. \sysname builds upon an evolutionary
search process, generating multiple offspring models in each generation through
mutation, and selecting the fittest for survival. To assess the effect of
post-training, we incorporate a lightweight, multistep training process within
the offspring population, progressively increasing the number of tokens and
eliminating poorly performing models in each selection stage. We validate our
method through extensive experiments on Llama-2-7B, Llama-3.1-8B and
Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured
pruning. For instance, \sysname surpasses ShearedLlama while requiring
5times less training data during post-compression training.Summary
AI-Generated Summary