RAMP : Quantification Mixte de Précision Adaptative par Renforcement pour une Inférence Efficace des LLM sur Périphériques

Résumé

La quantification post-entraînement est essentielle pour déployer les grands modèles de langage (LLM) sur du matériel à ressources limitées. Cependant, les méthodes actuelles imposent des largeurs de bits uniformes sur toutes les couches, ce qui conduit à des compromis précision-efficacité sous-optimaux. Nous présentons RAMP (Reinforcement Adaptive Mixed Precision), un cadre basé sur un acteur-critique souple (Soft Actor-Critic) hors politique qui apprend des assignations de largeur de bits par couche pour minimiser la perplexité sous une contrainte globale de bits. La politique se base sur un embedding en 11 dimensions de statistiques d'activation, de propriétés des poids et de descripteurs structurels, permettant un transfert zero-shot entre différentes familles et échelles de modèles. Pour permettre une quantification stable en dessous de 4 bits, nous introduisons Scale Folding, une technique de préconditionnement qui migre les valeurs aberrantes des activations dans les poids via une mise à l'échelle par canal et une compensation des couches de normalisation. Une récompense priorisant la qualité, avec des pénalités asymétriques et des "falaise" budgétaires, assure une convergence rapide. Sur Llama 2 7B, RAMP atteint une perplexité de 5,54 pour 3,68 Go (3,65 bits effectifs), surpassant l'AWQ uniforme 4 bits (5,60 à 3,90 Go) et GPTQ de 6 % en taille et de 1 % à 3 % en qualité. Fait crucial, une politique entraînée uniquement sur Llama 2 7B se généralise en zero-shot à Llama 2 13B et Mistral 7B, surpassant souvent un entraînement spécifique à la cible, ce qui étaye l'hypothèse que la sensibilité à la quantification est principalement architecturale. La pipeline HALO exporte les allocations au format GGUF pour une inférence sans noyau dédié sur les CPU, GPU et appareils embarqués, conservant 99,5 % des performances de raisonnement de bon sens en FP16.

English

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.

RAMP : Quantification Mixte de Précision Adaptative par Renforcement pour une Inférence Efficace des LLM sur Périphériques

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Résumé

Support