EvoPress: Hacia la Compresión Óptima de Modelos Dinámicos a través de Búsqueda Evolutiva
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search
October 18, 2024
Autores: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI
Resumen
Los altos costos computacionales de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han dado lugar a una avalancha de investigaciones sobre la compresión de LLM, mediante métodos como la cuantificación, la esparcificación o la poda estructurada. Una nueva frontera en esta área es proporcionada por métodos de compresión dinámica y no uniforme, que ajustan los niveles de compresión (por ejemplo, la dispersión) por bloque o incluso por capa con el fin de minimizar la pérdida de precisión, al mismo tiempo que garantizan un umbral global de compresión. Sin embargo, los métodos actuales dependen de heurísticas para identificar la "importancia" de una capa dada hacia la pérdida, basándose en suposiciones como la monotonicidad del error, es decir, que el error de compresión del modelo de extremo a extremo es proporcional a la suma de los errores por capa. En este documento, revisitamos esta área y proponemos un enfoque nuevo y general para la compresión dinámica que es óptimo de manera demostrable en un rango de entrada dado. Partimos de la observación motivadora de que, en general, la monotonicidad del error no se cumple para los LLMs: los modelos comprimidos con una menor suma de errores por capa pueden tener un rendimiento peor que los modelos con sumas de errores más altas. Para abordar esto, proponemos un nuevo marco evolutivo general para la compresión dinámica de LLM llamado EvoPress, que tiene una convergencia demostrable y una baja complejidad de muestra y evaluación. Mostramos que estas garantías teóricas conducen a un rendimiento práctico altamente competitivo para la compresión dinámica de los modelos Llama, Mistral y Phi. A través de EvoPress, establecemos nuevos resultados de vanguardia en todos los enfoques de compresión: poda estructural (eliminación de bloques/capas), dispersión no estructurada, así como cuantificación con anchos de bits dinámicos. Nuestro código está disponible en https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a
flurry of research on LLM compression, via methods such as quantization,
sparsification, or structured pruning. A new frontier in this area is given by
dynamic, non-uniform compression methods, which adjust the compression
levels (e.g., sparsity) per-block or even per-layer in order to minimize
accuracy loss, while guaranteeing a global compression threshold. Yet, current
methods rely on heuristics for identifying the "importance" of a given layer
towards the loss, based on assumptions such as error monotonicity, i.e.
that the end-to-end model compression error is proportional to the sum of
layer-wise errors. In this paper, we revisit this area, and propose a new and
general approach for dynamic compression that is provably optimal in a given
input range. We begin from the motivating observation that, in general,
error monotonicity does not hold for LLMs: compressed models with lower
sum of per-layer errors can perform worse than models with higher error
sums. To address this, we propose a new general evolutionary framework for
dynamic LLM compression called EvoPress, which has provable convergence, and
low sample and evaluation complexity. We show that these theoretical guarantees
lead to highly competitive practical performance for dynamic compression of
Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art
results across all compression approaches: structural pruning (block/layer
dropping), unstructured sparsity, as well as quantization with dynamic
bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.Summary
AI-Generated Summary