RAMP: Cuantización de Precisión Mixta Adaptativa por Refuerzo para una Inferencia Eficiente de LLM en Dispositivo

Resumen

La cuantización posterior al entrenamiento es esencial para implementar modelos de lenguaje grandes (LLM) en hardware con recursos limitados; sin embargo, los métodos de vanguardia imponen anchos de bits uniformes en todas las capas, lo que produce compensaciones de precisión y eficiencia subóptimas. Presentamos RAMP (Precisión Mixta Adaptativa por Refuerzo), un marco fuera de política Soft Actor-Critic que aprende asignaciones de ancho de bits por capa para minimizar la perplejidad bajo un presupuesto global de bits. La política se condiciona sobre una incrustación de 11 dimensiones de estadísticas de activación, propiedades de los pesos y descriptores estructurales, permitiendo la transferencia *zero-shot* entre familias de modelos y escalas. Para permitir una cuantización estable por debajo de 4 bits, introducimos Scale Folding, una técnica de preacondicionamiento que migra los valores atípicos (*outliers*) de las activaciones a los pesos mediante escalado por canal y compensación en las capas de normalización. Una recompensa priorizada por la calidad, con penalizaciones asimétricas y "precipicios" presupuestarios, impulsa una rápida convergencia. En Llama 2 7B, RAMP logra una perplejidad de 5.54 a 3.68 GB (3.65 bits efectivos), superando a AWQ de 4 bits uniforme (5.60 a 3.90 GB) y a GPTQ en un 6% en tamaño y entre un 1% y un 3% en calidad. De manera crucial, una política entrenada únicamente en Llama 2 7B se generaliza *zero-shot* a Llama 2 13B y Mistral 7B, a menudo superando al entrenamiento específico por objetivo, respaldando la hipótesis de que la sensibilidad a la cuantización es principalmente arquitectónica. La canalización HALO exporta las asignaciones al formato GGUF para inferencia sin *kernels* específicos en CPU, GPU y dispositivos periféricos, manteniendo el 99.5% del rendimiento de razonamiento de sentido común en FP16.

English

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.

RAMP: Cuantización de Precisión Mixta Adaptativa por Refuerzo para una Inferencia Eficiente de LLM en Dispositivo

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Resumen

Support