RAMP: Verstärkungsbasierte adaptive Mixed-Precision-Quantisierung für effizientes On-Device-LLM-Inferenz

Zusammenfassung

Post-Training-Quantisierung ist entscheidend für den Einsatz großer Sprachmodelle (LLMs) auf ressourcenbeschränkter Hardware. Allerdings erzwingen aktuelle State-of-the-Art-Methoden einheitliche Bitbreiten über alle Schichten hinweg, was zu suboptimalen Kompromissen zwischen Genauigkeit und Effizienz führt. Wir stellen RAMP (Reinforcement Adaptive Mixed Precision) vor, ein Off-Policy-Soft-Actor-Critic-Framework, das für jede Schicht eine Bitbreiten-Zuweisung lernt, um die Perplexität unter einem globalen Bit-Budget zu minimieren. Die Policy basiert auf einem 11-dimensionalen Embedding von Aktivierungsstatistiken, Gewichtungseigenschaften und strukturellen Deskriptoren, was Zero-Shot-Transfer über Modellfamilien und -skalen hinweg ermöglicht. Um eine stabile Quantisierung unter 4 Bit zu ermöglichen, führen wir Scale Folding ein, eine Vorbereitungstechnik, die Ausreißer in den Aktivierungen durch kanalweise Skalierung und Kompensation von Normalisierungsschichten in die Gewichte verlagert. Eine qualitätspriorisierte Belohnungsfunktion mit asymmetrischen Strafen und Budget-„Klippen“ sorgt für eine schnelle Konvergenz. Bei Llama 2 7B erreicht RAMP eine Perplexität von 5,54 bei 3,68 GB (3,65 effektive Bits) und übertrifft damit die einheitliche 4-Bit-AWQ-Quantisierung (5,60 bei 3,90 GB) sowie GPTQ um 6 % in der Größe und 1 % bis 3 % in der Qualität. Entscheidend ist, dass eine Policy, die ausschließlich auf Llama 2 7B trainiert wurde, Zero-Shot auf Llama 2 13B und Mistral 7B generalisiert und dabei oft sogar aufgabenspezifisches Training übertrifft. Dies unterstützt die Hypothese, dass die Quantisierungsempfindlichkeit primär architekturbedingt ist. Die HALO-Pipeline exportiert die Zuweisungen ins GGUF-Format für kernel-freie Inferenz auf CPUs, GPUs und Edge-Geräten und behält dabei 99,5 % der Common-Sense-Reasoning-Leistung von FP16 bei.

English

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.

RAMP: Verstärkungsbasierte adaptive Mixed-Precision-Quantisierung für effizientes On-Device-LLM-Inferenz

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Zusammenfassung

Support