E-PMQ: Expertengeführte Post-Merge-Quantisierung mit Merged-Weight-Anchoring

Zusammenfassung

Beschränkungen bei der Bereitstellung mit geringen Ressourcen haben die Modellquantisierung zu einer wesentlichen Voraussetzung für die Bereitstellung neuronaler Netze unter gleichzeitiger Wahrung der Leistungsfähigkeit gemacht. Gleichzeitig hat sich das Zusammenführen von Modellen (Model Merging) zu einer zunehmend praktikablen ressourcenschonenden Strategie entwickelt, um mehrere aufgaben- oder domainspezialisierte Experten ohne gemeinsames Training oder parallele Modellbereitstellung in einem einzigen Modell zu integrieren. Zusammen ermöglichen Quantisierung und Modellzusammenführung eine effiziente ressourcenschonende Bereitstellungspipeline, indem mehrere Experten in einem einzigen niederbitigen Modell integriert werden. Wir formalisieren dieses Szenario als Post-Merge-Quantisierung (PMQ). Wir zeigen, dass die direkte Anwendung der Nach-Trainings-Quantisierung (PTQ) auf ein zusammengeführtes Modell unzuverlässig ist, da zwei unterschiedliche Abweichungen gekoppelt sind: die durch die Niederbit-Rekonstruktion eingeführte Quantisierungsabweichung und die aus der Modellzusammenführung stammende expertenrelative Zusammenführungsabweichung. Um diese Abweichungen zu mildern, schlagen wir E-PMQ vor, ein expertengeführtes PMQ-Framework, das die Gewichte der Quell-Experten nutzt, um während der schichtweisen Kalibrierung expertengeführte Zielausgaben bereitzustellen, zusammen mit einer Verankerung der zusammengeführten Gewichte, um die Kalibrierung zu stabilisieren und das integrierte Verhalten des zusammengeführten Modells zu bewahren. Bei der Zusammenführung von acht Aufgaben mit CLIP-ViT-B/32 verbessert E-PMQ die 4-Bit-GPTQ von 65,0 % auf 73,6 % unter Task Arithmetic und von 69,1 % auf 74,8 % unter TIES-Merging. Unter schwierigeren Bedingungen verbessert E-PMQ die GPTQ von 34,8 % auf 76,7 % bei 20 Aufgaben mit CLIP-ViT-L/14 und von 78,26 % auf 83,34 % bei FLAN-T5-base GLUE. Diese Ergebnisse zeigen, dass E-PMQ eine effektive Nach-Zusammenführungs-Quantisierung und Niederbit-Bereitstellung ermöglicht.

English

Low-resource deployment constraints have made model quantization essential for deploying neural networks while preserving performance. Meanwhile, model merging has become an increasingly practical low-resource strategy for integrating multiple task- or domain-specialized experts into a single model without joint training or multi-model serving. Together, quantization and model merging enable an efficient low-resource deployment pipeline by integrating multiple experts into one low-bit model. We formulate this setting as Post-Merge Quantization (PMQ). We show that directly applying post-training quantization (PTQ) to a merged model is unreliable because two distinct deviations are coupled: the quantization deviation introduced by low-bit reconstruction and the expert-relative merging deviation inherited from model merging. To mitigate these deviations, we propose E-PMQ, an expert-guided PMQ framework that uses source expert weights to provide expert- guided output targets during layer-wise calibration, together with merged-weight anchoring to stabilize the calibration and preserve the integrated behavior of the merged model. On CLIP-ViT-B/32 eight-task merging, E-PMQ improves 4-bit GPTQ from 65.0% to 73.6% under Task Arithmetic and from 69.1% to 74.8% under TIES-Merging. On harder settings, E-PMQ improves GPTQ from 34.8% to 76.7% on 20-task CLIP-ViT-L/14 and from 78.26% to 83.34% on FLAN-T5- base GLUE. These results demonstrate that E-PMQ enables effective post-merge quantization and low-bit deployment.