GPTailor: Обрезка крупных языковых моделей посредством удаления и сшивания слоёв

Аннотация

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации текста. Однако такие впечатляющие возможности обычно сопровождаются значительным размером модели, что создает серьезные трудности при развертывании и выполнении выводов. Хотя структурированное сокращение параметров модели предлагает перспективный способ снижения вычислительных затрат во время развертывания, современные методы в основном сосредоточены на сокращении одной модели. В данной работе мы разрабатываем новую стратегию сжатия моделей путем стратегического объединения или слияния слоев из дообученных вариантов моделей, что сохраняет способности исходной модели за счет агрегирования возможностей, усиленных в различных дообучениях. Мы формулируем оптимальную настройку этих LLM как задачу оптимизации нулевого порядка, используя пространство поиска, которое поддерживает три различные операции: (1) удаление слоев, (2) выбор слоев из различных моделей-кандидатов и (3) слияние слоев. Наши эксперименты показывают, что этот подход приводит к конкурентоспособному сокращению моделей. Например, для семейства моделей Llama2-13B наши сжатые модели сохраняют примерно 97,3% исходной производительности при удалении около 25% параметров, значительно превосходя предыдущие передовые методы. Код доступен по адресу https://github.com/Guinan-Su/auto-merge-llm.

English

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in deployment and inference. While structured pruning of model parameters offers a promising way to reduce computational costs at deployment time, current methods primarily focus on single model pruning. In this work, we develop a novel strategy to compress models by strategically combining or merging layers from finetuned model variants, which preserves the original model's abilities by aggregating capabilities accentuated in different finetunes. We pose the optimal tailoring of these LLMs as a zero-order optimization problem, adopting a search space that supports three different operations: (1) Layer removal, (2) Layer selection from different candidate models, and (3) Layer merging. Our experiments demonstrate that this approach leads to competitive model pruning, for example, for the Llama2-13B model families, our compressed models maintain approximately 97.3\% of the original performance while removing sim25% of parameters, significantly outperforming previous state-of-the-art methods. The code is available at https://github.com/Guinan-Su/auto-merge-llm.

GPTailor: Обрезка крупных языковых моделей посредством удаления и сшивания слоёв

GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

Аннотация

Support