RAMP: Quantização de Precisão Mista Adaptativa por Reforço para Inferência Eficiente de LLM em Dispositivos

Resumo

A quantização pós-treinamento é essencial para implantar grandes modelos de linguagem (LLMs) em hardware com recursos limitados, porém os métodos state of the art impõem larguras de bits uniformes em todas as camadas, resultando em compensações de precisão e eficiência subótimas. Apresentamos o RAMP (Reinforcement Adaptive Mixed Precision), uma estrutura *Soft Actor-Critic* de política indireta que aprende atribuições de largura de bits por camada para minimizar a perplexidade sob um orçamento global de bits. A política condiciona-se em uma incorporação de 11 dimensões de estatísticas de ativação, propriedades dos pesos e descritores estruturais, permitindo transferência *zero-shot* entre famílias e escalas de modelos. Para permitir uma quantização estável abaixo de 4 bits, introduzimos o *Scale Folding*, uma técnica de pré-condicionamento que migra *outliers* de ativação para os pesos via escalonamento por canal e compensação em camadas de normalização. Uma recompensa priorizada pela qualidade, com penalidades assimétricas e "penhascos" orçamentais, impulsiona uma convergência rápida. No Llama 2 7B, o RAMP atinge uma perplexidade de 5,54 a 3,68 GB (3,65 bits efetivos), superando o AWQ de 4 bits uniforme (5,60 a 3,90 GB) e o GPTQ em 6% no tamanho e 1% a 3% na qualidade. Crucialmente, uma política treinada apenas no Llama 2 7B generaliza-se via *zero-shot* para o Llama 2 13B e Mistral 7B, frequentemente superando o treinamento específico para o alvo, apoiando a hipótese de que a sensibilidade à quantização é primariamente arquitetônica. O *pipeline* HALO exporta as alocações para o formato GGUF para inferência sem *kernels* personalizados em CPUs, GPUs e dispositivos de *edge*, mantendo 99,5% do desempenho de raciocínio de senso comum do FP16.

English

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.

RAMP: Quantização de Precisão Mista Adaptativa por Reforço para Inferência Eficiente de LLM em Dispositivos

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Resumo

Support