ChatPaper.aiChatPaper

MASQuant: 다중모달 대규모 언어 모델을 위한 양자화 기법

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

March 5, 2026
저자: Lulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao
cs.AI

초록

대규모 언어 모델(LLM)에 대한 계산 불변성 기반 학습 후 양자화(PTQ)는 놀라운 발전을 보여왔으나, 이를 다중 모달 대규모 언어 모델(MLLM)에 적용하는 것은 상당한 과제를 안고 있습니다. 본 논문에서는 사례 연구로 SmoothQuant를 분석하고 두 가지 핵심 문제점, 즉 스무딩 불일치(Smoothing Misalignment)와 교차 모달 계산 불변성(Cross-Modal Computational Invariance)을 규명합니다. 이러한 문제를 해결하기 위해 우리는 새로운 프레임워크인 모달리티 인식 스무딩 양자화(MASQuant)를 제안합니다. MASQuant는 (1) 스무딩 불일치를 방지하기 위해 모달리티별 별도의 스무딩 계수를 학습하는 모달리티 인식 스무딩(MAS)과, (2) SVD 화이트닝을 사용하여 다중 모달 활성화 차이를 저차원 형태로 변환하여 모달리티 간 통합 양자화를 가능하게 함으로써 교차 모달 계산 불변성을 해결하는 교차 모달 보상(CMC)을 도입합니다. MASQuant는 이중 모달 및 삼중 모달 MLLM 모두에서 안정적인 양자화 성능을 입증합니다. 실험 결과는 MASQuant가 최신 PTQ 알고리즘 중 경쟁력이 있음을 보여줍니다. 소스 코드: https://github.com/alibaba/EfficientAI.
English
Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.
PDF86March 9, 2026