EvoPress: К Оптимальному Сжатию Динамической Модели через Эволюционный Поиск
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
October 18, 2024
Авторы: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI
Аннотация
Высокие вычислительные затраты на большие языковые модели (LLM) привели к бурному росту исследований по сжатию LLM с использованием методов, таких как квантизация, разреженность или структурированное обрезание. Новым направлением в этой области являются динамические, неоднородные методы сжатия, которые регулируют уровни сжатия (например, разреженность) на уровне блока или даже слоя для минимизации потери точности, обеспечивая при этом глобальный порог сжатия. Однако текущие методы полагаются на эвристики для определения "важности" данного слоя для потерь, основываясь на предположениях, таких как монотонность ошибки, то есть то, что ошибка сжатия модели от начала до конца пропорциональна сумме ошибок по слоям. В данной статье мы пересматриваем эту область и предлагаем новый и общий подход для динамического сжатия, который доказанно оптимален в заданном диапазоне входных данных. Мы начинаем с мотивирующего наблюдения о том, что в общем случае монотонность ошибки не сохраняется для LLM: сжатые модели с меньшей суммой ошибок по слоям могут показывать худшую производительность, чем модели с более высокими суммами ошибок. Для решения этой проблемы мы предлагаем новую общую эволюционную структуру для динамического сжатия LLM под названием EvoPress, которая обладает доказанной сходимостью, низкой сложностью выборки и оценки. Мы показываем, что эти теоретические гарантии приводят к высокой конкурентоспособной практической производительности для динамического сжатия моделей Llama, Mistral и Phi. С помощью EvoPress мы устанавливаем новые результаты во всех подходах к сжатию: структурное обрезание (выбрасывание блоков/слоев), неструктурированная разреженность, а также квантизация с динамическими битовыми ширинами. Наш код доступен по ссылке https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a
flurry of research on LLM compression, via methods such as quantization,
sparsification, or structured pruning. A new frontier in this area is given by
dynamic, non-uniform compression methods, which adjust the compression
levels (e.g., sparsity) per-block or even per-layer in order to minimize
accuracy loss, while guaranteeing a global compression threshold. Yet, current
methods rely on heuristics for identifying the "importance" of a given layer
towards the loss, based on assumptions such as error monotonicity, i.e.
that the end-to-end model compression error is proportional to the sum of
layer-wise errors. In this paper, we revisit this area, and propose a new and
general approach for dynamic compression that is provably optimal in a given
input range. We begin from the motivating observation that, in general,
error monotonicity does not hold for LLMs: compressed models with lower
sum of per-layer errors can perform worse than models with higher error
sums. To address this, we propose a new general evolutionary framework for
dynamic LLM compression called EvoPress, which has provable convergence, and
low sample and evaluation complexity. We show that these theoretical guarantees
lead to highly competitive practical performance for dynamic compression of
Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art
results across all compression approaches: structural pruning (block/layer
dropping), unstructured sparsity, as well as quantization with dynamic
bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.Summary
AI-Generated Summary