MASQuant: Quantizzazione Levigata Consapevole della Modalità per Modelli Linguistici Multimodali di Grande Dimensioni

Abstract

La quantizzazione post-addestramento (PTQ) con invarianza computazionale per i Large Language Model (LLM) ha dimostrato progressi notevoli; tuttavia, la sua applicazione ai Multimodal Large Language Model (MLLM) presenta sfide sostanziali. In questo articolo, analizziamo SmoothQuant come caso di studio e identifichiamo due problemi critici: l'Allineamento Inadeguato del Smoothing e l'Invarianza Computazionale Cross-Modale. Per affrontare questi problemi, proponiamo Modality-Aware Smoothing Quantization (MASQuant), un framework innovativo che introduce (1) Modality-Aware Smoothing (MAS), che apprende fattori di smoothing separati e specifici per modalità per prevenire l'Allineamento Inadeguato, e (2) Cross-Modal Compensation (CMC), che risolve l'Invarianza Computazionale Cross-Modale utilizzando la whitening SVD per trasformare le differenze di attivazione multimodale in forme a basso rango, consentendo una quantizzazione unificata tra le modalità. MASQuant dimostra prestazioni di quantizzazione stabili sia per MLLM bimodali che trimodali. I risultati sperimentali mostrano che MASQuant è competitivo tra gli algoritmi PTQ allo stato dell'arte. Codice sorgente: https://github.com/alibaba/EfficientAI.

English

Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.

MASQuant: Quantizzazione Levigata Consapevole della Modalità per Modelli Linguistici Multimodali di Grande Dimensioni

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Abstract

Support