E-PMQ: Управляемое экспертом квантование после слияния с фиксацией объединённых весов

Аннотация

Ограничения ресурсов при развертывании сделали квантизацию моделей необходимой для внедрения нейронных сетей с сохранением производительности. В то же время слияние моделей становится все более практичной низкоресурсной стратегией для интеграции нескольких экспертов, специализированных по задачам или предметным областям, в единую модель без совместного обучения или обслуживания нескольких моделей. Вместе квантизация и слияние моделей позволяют создать эффективный конвейер развертывания с низким потреблением ресурсов путем объединения нескольких экспертов в одну низкобитовую модель. Мы формулируем эту постановку как постслитную квантизацию (PMQ). Мы показываем, что прямое применение посттренировочной квантизации (PTQ) к слитной модели ненадежно из-за связи двух различных отклонений: отклонения квантизации, вносимого низкобитовой реконструкцией, и отклонения слияния, связанного с экспертами, унаследованного от объединения моделей. Для смягчения этих отклонений мы предлагаем E-PMQ, эксперт-управляемый фреймворк PMQ, который использует веса исходных экспертов для предоставления экспертно-ориентированных выходных целей во время послойной калибровки, а также фиксацию слитных весов для стабилизации калибровки и сохранения интегрированного поведения объединенной модели. На слиянии восьми задач с CLIP-ViT-B/32 E-PMQ улучшает 4-битный GPTQ с 65,0% до 73,6% при Task Arithmetic и с 69,1% до 74,8% при TIES-Merging. В более сложных условиях E-PMQ улучшает GPTQ с 34,8% до 76,7% на 20-задачном CLIP-ViT-L/14 и с 78,26% до 83,34% на FLAN-T5-base GLUE. Эти результаты демонстрируют, что E-PMQ обеспечивает эффективную постслитную квантизацию и низкобитовое развертывание.

English

Low-resource deployment constraints have made model quantization essential for deploying neural networks while preserving performance. Meanwhile, model merging has become an increasingly practical low-resource strategy for integrating multiple task- or domain-specialized experts into a single model without joint training or multi-model serving. Together, quantization and model merging enable an efficient low-resource deployment pipeline by integrating multiple experts into one low-bit model. We formulate this setting as Post-Merge Quantization (PMQ). We show that directly applying post-training quantization (PTQ) to a merged model is unreliable because two distinct deviations are coupled: the quantization deviation introduced by low-bit reconstruction and the expert-relative merging deviation inherited from model merging. To mitigate these deviations, we propose E-PMQ, an expert-guided PMQ framework that uses source expert weights to provide expert- guided output targets during layer-wise calibration, together with merged-weight anchoring to stabilize the calibration and preserve the integrated behavior of the merged model. On CLIP-ViT-B/32 eight-task merging, E-PMQ improves 4-bit GPTQ from 65.0% to 73.6% under Task Arithmetic and from 69.1% to 74.8% under TIES-Merging. On harder settings, E-PMQ improves GPTQ from 34.8% to 76.7% on 20-task CLIP-ViT-L/14 and from 78.26% to 83.34% on FLAN-T5- base GLUE. These results demonstrate that E-PMQ enables effective post-merge quantization and low-bit deployment.