MASQuant : Quantification par Lissage Sensible à la Modalité pour les Modèles de Langue Multimodaux de Grande Taille

Résumé

La quantification post-entraînement (PTQ) avec invariance computationnelle pour les grands modèles de langage (LLM) a démontré des progrès remarquables, mais son application aux modèles de langage multimodaux (MLLM) présente des défis substantiels. Dans cet article, nous analysons SmoothQuant comme étude de cas et identifions deux problèmes critiques : le désalignement du lissage et l'invariance computationnelle intermodale. Pour résoudre ces problèmes, nous proposons MASQuant (Modality-Aware Smoothing Quantization), un nouveau cadre qui introduit (1) le lissage adapté aux modalités (MAS), qui apprend des facteurs de lissage distincts et spécifiques à chaque modalité pour prévenir le désalignement, et (2) la compensation intermodale (CMC), qui traite l'invariance computationnelle intermodale en utilisant le blanchiment SVD pour transformer les différences d'activation multimodales en formes de faible rang, permettant une quantification unifiée across modalities. MASQuant démontre des performances de quantification stables pour les MLLM à la fois bimodaux et trimodaux. Les résultats expérimentaux montrent que MASQuant est compétitif parmi les algorithmes PTQ de pointe. Code source : https://github.com/alibaba/EfficientAI.

English

Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.

MASQuant : Quantification par Lissage Sensible à la Modalité pour les Modèles de Langue Multimodaux de Grande Taille

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Résumé

Support