E-PMQ: Quantização Pós-Fusão Guiada por Especialista com Ancoragem de Pesos Fundidos

Resumo

Restrições de implantação com recursos limitados tornaram a quantização de modelos essencial para implantar redes neurais enquanto se preserva o desempenho. Simultaneamente, a fusão de modelos tem se tornado uma estratégia prática com poucos recursos para integrar múltiplos especialistas especializados em tarefas ou domínios em um único modelo, sem necessidade de treinamento conjunto ou servidor de múltiplos modelos. Juntas, quantização e fusão de modelos viabilizam um pipeline eficiente de implantação com poucos recursos ao integrar múltiplos especialistas em um único modelo de baixa precisão. Formalizamos essa configuração como Quantização Pós-Fusão (QPF). Mostramos que aplicar diretamente a quantização pós-treinamento (QPT) a um modelo fundido não é confiável, pois dois desvios distintos estão acoplados: o desvio de quantização introduzido pela reconstrução de baixa precisão e o desvio relativo aos especialistas herdado da fusão de modelos. Para mitigar esses desvios, propomos E-QPF, uma estrutura de QPF guiada por especialistas que utiliza os pesos dos especialistas de origem para fornecer alvos de saída guiados pelos especialistas durante a calibração camada por camada, juntamente com ancoragem de pesos fundidos para estabilizar a calibração e preservar o comportamento integrado do modelo fundido. Na fusão de oito tarefas do CLIP-ViT-B/32, o E-QPF melhora o GPTQ de 4 bits de 65,0% para 73,6% com Task Arithmetic e de 69,1% para 74,8% com TIES-Merging. Em configurações mais desafiadoras, o E-QPF melhora o GPTQ de 34,8% para 76,7% em 20 tarefas com CLIP-ViT-L/14 e de 78,26% para 83,34% no GLUE com FLAN-T5-base. Esses resultados demonstram que o E-QPF possibilita quantização pós-fusão eficaz e implantação de baixa precisão.

English

Low-resource deployment constraints have made model quantization essential for deploying neural networks while preserving performance. Meanwhile, model merging has become an increasingly practical low-resource strategy for integrating multiple task- or domain-specialized experts into a single model without joint training or multi-model serving. Together, quantization and model merging enable an efficient low-resource deployment pipeline by integrating multiple experts into one low-bit model. We formulate this setting as Post-Merge Quantization (PMQ). We show that directly applying post-training quantization (PTQ) to a merged model is unreliable because two distinct deviations are coupled: the quantization deviation introduced by low-bit reconstruction and the expert-relative merging deviation inherited from model merging. To mitigate these deviations, we propose E-PMQ, an expert-guided PMQ framework that uses source expert weights to provide expert- guided output targets during layer-wise calibration, together with merged-weight anchoring to stabilize the calibration and preserve the integrated behavior of the merged model. On CLIP-ViT-B/32 eight-task merging, E-PMQ improves 4-bit GPTQ from 65.0% to 73.6% under Task Arithmetic and from 69.1% to 74.8% under TIES-Merging. On harder settings, E-PMQ improves GPTQ from 34.8% to 76.7% on 20-task CLIP-ViT-L/14 and from 78.26% to 83.34% on FLAN-T5- base GLUE. These results demonstrate that E-PMQ enables effective post-merge quantization and low-bit deployment.