RAMP: Адаптивное квантование смешанной точности с подкреплением для эффективного вывода LLM на устройстве

Аннотация

Квантование после обучения критически важно для развертывания больших языковых моделей (LLM) на оборудовании с ограниченными ресурсами, однако современные методы применяют единую разрядность для всех слоев, что приводит к субоптимальному компромиссу между точностью и эффективностью. Мы представляем RAMP (Reinforcement Adaptive Mixed Precision) — метод на основе фреймворка Soft Actor-Critic с офф-политикой, который обучается назначать разрядность для каждого слоя, чтобы минимизировать перплексию при заданном глобальном бюджете на биты. Политика основывается на 11-мерном векторе, содержащем статистики активаций, свойства весов и структурные дескрипторы, что обеспечивает перенос между семействами моделей и масштабами без дообучения (zero-shot). Для обеспечения стабильного квантования ниже 4 бит мы вводим Scale Folding — метод предварительной обработки, который мигрирует выбросы в активациях в веса с помощью поэлементного масштабирования по каналам и компенсации в слоях нормализации. Функция вознаграждения, приоритезирующая качество и использующая асимметричные штрафы и "обрывы" бюджета, обеспечивает быструю сходимость. Для модели Llama 2 7B RAMP достигает перплексии 5.54 при размере 3.68 ГБ (эффективная разрядность 3.65 бита), превосходя равномерное 4-битное квантование AWQ (5.60 при 3.90 ГБ) и GPTQ на 6% по размеру и на 1–3% по качеству. Важно, что политика, обученная только на Llama 2 7B, обобщается без дообучения (zero-shot) на Llama 2 13B и Mistral 7B, часто превосходя специализированное обучение для конкретной цели, что подтверждает гипотезу о том, что чувствительность к квантованию в первую очередь определяется архитектурой. Конвейер HALO экспортирует распределения разрядности в формат GGUF для выполнения выводов на CPU, GPU и периферийных устройствах без использования специальных ядер, сохраняя 99.5% производительности FP16 на задачах проверки здравого смысла.

English

Post training quantization is essential for deploying large language models (LLMs) on resource constrained hardware, yet state of the art methods enforce uniform bit widths across layers, yielding suboptimal accuracy efficiency trade offs. We present RAMP (Reinforcement Adaptive Mixed Precision), an off policy Soft Actor Critic framework that learns per layer bit width assignments to minimize perplexity under a global bit budget. The policy conditions on an 11 dimensional embedding of activation statistics, weight properties, and structural descriptors, enabling zero shot transfer across model families and scales. To enable stable sub 4 bit quantization, we introduce Scale Folding, a preconditioning technique that migrates activation outliers into weights via per channel scaling and normalization layer compensation. A quality prioritized reward with asymmetric penalties and budget cliffs drives rapid convergence. On Llama 2 7B, RAMP achieves 5.54 perplexity at 3.68GB (3.65 effective bits), outperforming uniform 4 bit AWQ (5.60 at 3.90 GB) and GPTQ by 6% in size and 1% to3% in quality. Critically, a policy trained only on Llama 2 7B generalizes zero shot to Llama 2 13B and Mistral 7B, often surpassing target specific training, supporting the hypothesis that quantization sensitivity is primarily architectural. The HALO pipeline exports allocations to GGUF format for kernel free inference on CPUs, GPUs, and edge devices, retaining 99.5% of FP16 commonsense reasoning performance.

RAMP: Адаптивное квантование смешанной точности с подкреплением для эффективного вывода LLM на устройстве

RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Аннотация

Support