ChatPaper.aiChatPaper

EvoPress: Verso una Compressione Ottimale dei Modelli Dinamici tramite Ricerca Evolutiva

EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search

October 18, 2024
Autori: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh
cs.AI

Abstract

I costi computazionali elevati dei grandi modelli linguistici (LLM) hanno portato a un'ampia ricerca sulla compressione dei LLM, tramite metodi come quantizzazione, sparizione o potatura strutturata. Una nuova frontiera in questo ambito è data dai metodi di compressione dinamica e non uniforme, che regolano i livelli di compressione (ad esempio, sparsità) per blocco o addirittura per strato al fine di minimizzare la perdita di accuratezza, garantendo al contempo una soglia di compressione globale. Tuttavia, i metodi attuali si basano su euristiche per identificare l'"importanza" di uno specifico strato verso la perdita, basandosi su assunzioni come la monotonicità dell'errore, cioè che l'errore di compressione del modello end-to-end sia proporzionale alla somma degli errori per strato. In questo articolo, riprendiamo questo ambito e proponiamo un nuovo e generale approccio per la compressione dinamica che è provabilmente ottimale in un determinato intervallo di input. Partiamo dall'osservazione motivante che, in generale, la monotonicità dell'errore non vale per i LLM: modelli compressi con una somma inferiore di errori per strato possono comportarsi peggio rispetto a modelli con somme di errori più elevate. Per affrontare questo problema, proponiamo un nuovo framework evolutivo generale per la compressione dinamica dei LLM chiamato EvoPress, che garantisce una convergenza provabile, e una bassa complessità di campionamento e valutazione. Dimostriamo che queste garanzie teoriche portano a prestazioni pratiche altamente competitive per la compressione dinamica dei modelli Llama, Mistral e Phi. Attraverso EvoPress, otteniamo nuovi risultati all'avanguardia tra tutti gli approcci di compressione: potatura strutturale (rimozione di blocchi/strati), sparsità non strutturata, nonché quantizzazione con larghezze di bit dinamiche. Il nostro codice è disponibile su https://github.com/IST-DASLab/EvoPress.
English
The high computational costs of large language models (LLMs) have led to a flurry of research on LLM compression, via methods such as quantization, sparsification, or structured pruning. A new frontier in this area is given by dynamic, non-uniform compression methods, which adjust the compression levels (e.g., sparsity) per-block or even per-layer in order to minimize accuracy loss, while guaranteeing a global compression threshold. Yet, current methods rely on heuristics for identifying the "importance" of a given layer towards the loss, based on assumptions such as error monotonicity, i.e. that the end-to-end model compression error is proportional to the sum of layer-wise errors. In this paper, we revisit this area, and propose a new and general approach for dynamic compression that is provably optimal in a given input range. We begin from the motivating observation that, in general, error monotonicity does not hold for LLMs: compressed models with lower sum of per-layer errors can perform worse than models with higher error sums. To address this, we propose a new general evolutionary framework for dynamic LLM compression called EvoPress, which has provable convergence, and low sample and evaluation complexity. We show that these theoretical guarantees lead to highly competitive practical performance for dynamic compression of Llama, Mistral and Phi models. Via EvoPress, we set new state-of-the-art results across all compression approaches: structural pruning (block/layer dropping), unstructured sparsity, as well as quantization with dynamic bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress.

Summary

AI-Generated Summary

PDF92November 16, 2024