MASQuant: Quantização Suavizada com Consciência de Modalidade para Modelos de Linguagem Multimodais de Grande Escala

Resumo

A quantização pós-treinamento (PTQ) com invariância computacional para Modelos de Linguagem de Grande Porte (LLMs) tem demonstrado avanços notáveis, porém sua aplicação em Modelos Multimodais de Linguagem de Grande Porte (MLLMs) apresenta desafios substanciais. Neste artigo, analisamos o SmoothQuant como estudo de caso e identificamos dois problemas críticos: o Desalinhamento da Suavização e a Invariância Computacional Transmodal. Para resolver essas questões, propomos a Quantização por Suavização com Consciência Modal (MASQuant), uma nova estrutura que introduz (1) a Suavização com Consciência Modal (MAS), que aprende fatores de suavização separados e específicos por modalidade para prevenir o Desalinhamento da Suavização, e (2) a Compensação Transmodal (CMC), que aborda a Invariância Computacional Transmodal usando o branqueamento por SVD para transformar diferenças de ativação multimodal em formas de baixo posto, permitindo quantização unificada entre modalidades. O MASQuant demonstra desempenho de quantização estável tanto em MLLMs bimodais quanto trimodais. Resultados experimentais mostram que o MASQuant é competitivo entre os algoritmos PTQ mais avançados. Código-fonte: https://github.com/alibaba/EfficientAI.

English

Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.

MASQuant: Quantização Suavizada com Consciência de Modalidade para Modelos de Linguagem Multimodais de Grande Escala

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Resumo

Support