MASQuant: Cuantización de Suavizado Consciente de la Modalidad para Modelos de Lenguaje Grandes Multimodales

Resumen

La cuantización post-entrenamiento (PTQ) con invariancia computacional para Modelos de Lenguaje Grandes (LLM) ha demostrado avances notables; sin embargo, su aplicación a Modelos Multimodales de Lenguaje Grande (MLLM) presenta desafíos sustanciales. En este artículo, analizamos SmoothQuant como caso de estudio e identificamos dos problemas críticos: Desalineación del Suavizado e Invariancia Computacional Transmodal. Para abordar estos problemas, proponemos Modality-Aware Smoothing Quantization (MASQuant), un marco novedoso que introduce (1) Suavizado Consciente de la Modalidad (MAS), que aprende factores de suavizado separados y específicos por modalidad para prevenir la Desalineación del Suavizado, y (2) Compensación Transmodal (CMC), que aborda la Invariancia Computacional Transmodal utilizando el blanqueamiento SVD para transformar las diferencias de activación multimodal en formas de bajo rango, permitiendo una cuantización unificada entre modalidades. MASQuant demuestra un rendimiento de cuantización estable tanto en MLLM bimodales como trimodales. Los resultados experimentales muestran que MASQuant es competitivo entre los algoritmos PTQ más avanzados. Código fuente: https://github.com/alibaba/EfficientAI.

English

Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.

MASQuant: Cuantización de Suavizado Consciente de la Modalidad para Modelos de Lenguaje Grandes Multimodales

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Resumen

Support