EvoPress: Rumo à Compressão Dinâmica Ótima de Modelos por Meio de Busca Evolutiva
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
October 18, 2024
Autores: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI
Resumo
Os altos custos computacionais dos grandes modelos de linguagem (LLMs) têm levado a uma enxurrada de pesquisas sobre compressão de LLM, por meio de métodos como quantização, esparsificação ou poda estruturada. Uma nova fronteira nessa área é apresentada por métodos de compressão dinâmica e não uniforme, que ajustam os níveis de compressão (por exemplo, esparsidade) por bloco ou até por camada para minimizar a perda de precisão, garantindo ao mesmo tempo um limiar global de compressão. No entanto, os métodos atuais dependem de heurísticas para identificar a "importância" de uma determinada camada em relação à perda, com base em pressupostos como a monotonicidade do erro, ou seja, que o erro de compressão do modelo de ponta a ponta é proporcional à soma dos erros por camada. Neste artigo, revisitamos essa área e propomos uma abordagem nova e geral para compressão dinâmica que é comprovadamente ótima em uma determinada faixa de entrada. Partimos da observação motivadora de que, em geral, a monotonicidade do erro não se aplica aos LLMs: modelos comprimidos com menor soma de erros por camada podem ter desempenho pior do que modelos com somas de erros mais altas. Para lidar com isso, propomos um novo framework evolutivo geral para compressão dinâmica de LLM chamado EvoPress, que possui convergência comprovada e baixa complexidade de amostragem e avaliação. Mostramos que essas garantias teóricas levam a um desempenho prático altamente competitivo para a compressão dinâmica dos modelos Llama, Mistral e Phi. Por meio do EvoPress, estabelecemos novos resultados de ponta em todas as abordagens de compressão: poda estrutural (descarte de bloco/camada), esparsidade não estruturada, bem como quantização com larguras de bits dinâmicas. Nosso código está disponível em https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a
flurry of research on LLM compression, via methods such as quantization,
sparsification, or structured pruning. A new frontier in this area is given by
dynamic, non-uniform compression methods, which adjust the compression
levels (e.g., sparsity) per-block or even per-layer in order to minimize
accuracy loss, while guaranteeing a global compression threshold. Yet, current
methods rely on heuristics for identifying the "importance" of a given layer
towards the loss, based on assumptions such as error monotonicity, i.e.
that the end-to-end model compression error is proportional to the sum of
layer-wise errors. In this paper, we revisit this area, and propose a new and
general approach for dynamic compression that is provably optimal in a given
input range. We begin from the motivating observation that, in general,
error monotonicity does not hold for LLMs: compressed models with lower
sum of per-layer errors can perform worse than models with higher error
sums. To address this, we propose a new general evolutionary framework for
dynamic LLM compression called EvoPress, which has provable convergence, and
low sample and evaluation complexity. We show that these theoretical guarantees
lead to highly competitive practical performance for dynamic compression of
Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art
results across all compression approaches: structural pruning (block/layer
dropping), unstructured sparsity, as well as quantization with dynamic
bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.Summary
AI-Generated Summary