RAMP: Quantizzazione a Precisione Mista Adattiva per Rinforzo per Inferenza Efficiente di LLM su Dispositivo

Abstract

La quantizzazione post-addestramento è essenziale per il deployment di grandi modelli linguistici (LLM) su hardware con risorse limitate, tuttavia i metodi allo stato dell'arte impongono larghezze di bit uniformi su tutti i livelli, producendo compromessi precisione-efficienza subottimali. Presentiamo RAMP (Reinforcement Adaptive Mixed Precision), un framework Soft Actor-Critic off-policy che apprende assegnazioni di bit per singolo livello per minimizzare la perplexity sotto un budget globale di bit. La policy si basa su un embedding a 11 dimensioni di statistiche delle attivazioni, proprietà dei pesi e descrittori strutturali, consentendo il trasferimento zero-shot tra famiglie e scale di modelli. Per abilitare una quantizzazione stabile sotto i 4 bit, introduciamo Scale Folding, una tecnica di precondizionamento che migra i valori anomali delle attivazioni nei pesi tramite scalatura per canale e compensazione dei livelli di normalizzazione. Una ricompensa prioritaria per la qualità, con penalità asimmetriche e "scogli" di budget, guida una rapida convergenza. Su Llama 2 7B, RAMP raggiunge una perplexity di 5,54 a 3,68 GB (3,65 bit effettivi), superando l'AWQ uniforme a 4 bit (5,60 a 3,90 GB) e GPTQ del 6% in dimensione e dall'1% al 3% in qualità. In modo cruciale, una policy addestrata solo su Llama 2 7B si generalizza in zero-shot a Llama 2 13B e Mistral 7B, spesso superando l'addestramento specifico per target, supportando l'ipotesi che la sensibilità alla quantizzazione sia principalmente architetturale. La pipeline HALO esporta le allocazioni in formato GGUF per l'inferenza senza kernel su CPU, GPU e dispositivi edge, mantenendo il 99,5% delle prestazioni di ragionamento di senso comune in FP16.

English

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.

RAMP: Quantizzazione a Precisione Mista Adattiva per Rinforzo per Inferenza Efficiente di LLM su Dispositivo

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Abstract

Support