DarwinLM: Эволюционное структурированное прореживание больших языковых моделей

Аннотация

Крупные языковые модели (LLM) достигли значительных успехов в решении различных задач обработки естественного языка (NLP). Однако их высокая вычислительная стоимость ограничивает их широкое применение, особенно в задачах, требующих работы в реальном времени. Структурное прореживание предлагает эффективное решение, сжимая модели и обеспечивая прямое улучшение скорости работы от начала до конца, независимо от аппаратной среды. При этом различные компоненты модели демонстрируют разную чувствительность к прореживанию, что требует неоднородного сжатия модели. Однако метод прореживания должен не только выявлять подходящую подструктуру, но и учитывать обучение после сжатия. Для этого мы предлагаем \sysname — метод структурированного прореживания с учетом обучения. \sysname основан на эволюционном поиске, генерируя в каждом поколении несколько дочерних моделей с помощью мутаций и отбирая наиболее приспособленные для выживания. Чтобы оценить эффект пост-обучения, мы включаем в процесс легковесное многоэтапное обучение в популяции дочерних моделей, постепенно увеличивая количество токенов и отсеивая слабо работающие модели на каждом этапе отбора. Мы подтверждаем эффективность нашего метода с помощью обширных экспериментов на моделях Llama-2-7B, Llama-3.1-8B и Qwen-2.5-14B-Instruct, достигая передовых результатов в области структурного прореживания. Например, \sysname превосходит ShearedLlama, требуя в 5 раз меньше данных для обучения после сжатия.

English

Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for non-uniform model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for training-aware structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring 5times less training data during post-compression training.

DarwinLM: Эволюционное структурированное прореживание больших языковых моделей

DarwinLM: Evolutionary Structured Pruning of Large Language Models

Аннотация

Support