MASQuant: Модально-осознанное сглаживающее квантование для мультимодальных больших языковых моделей

Аннотация

Квантование после обучения (PTQ) с вычислительной инвариантностью для больших языковых моделей (LLM) показало значительные успехи, однако их применение к мультимодальным большим языковым моделям (MLLM) сопряжено со существенными трудностями. В данной статье мы анализируем SmoothQuant в качестве примера и выявляем две ключевые проблемы: рассогласование сглаживания и кросс-модальную вычислительную инвариантность. Для решения этих проблем мы предлагаем Modality-Aware Smoothing Quantization (MASQuant) — новую структуру, которая вводит (1) сглаживание с учетом модальности (MAS), обучающее отдельные, специфичные для модальности коэффициенты сглаживания для предотвращения рассогласования, и (2) кросс-модальную компенсацию (CMC), которая устраняет кросс-модальную вычислительную инвариантность с помощью SVD-отбеливания, преобразующего различия мультимодальных активаций в низкоранговые формы, что позволяет унифицировать квантование для всех модальностей. MASQuant демонстрирует стабильную производительность квантования как для двух-, так и для трехмодальных MLLM. Результаты экспериментов показывают, что MASQuant конкурентоспособен среди современных алгоритмов PTQ. Исходный код: https://github.com/alibaba/EfficientAI.

English

Post-training quantization (PTQ) with computational invariance for Large Language Models~(LLMs) have demonstrated remarkable advances, however, their application to Multimodal Large Language Models~(MLLMs) presents substantial challenges. In this paper, we analyze SmoothQuant as a case study and identify two critical issues: Smoothing Misalignment and Cross-Modal Computational Invariance. To address these issues, we propose Modality-Aware Smoothing Quantization (MASQuant), a novel framework that introduces (1) Modality-Aware Smoothing (MAS), which learns separate, modality-specific smoothing factors to prevent Smoothing Misalignment, and (2) Cross-Modal Compensation (CMC), which addresses Cross-modal Computational Invariance by using SVD whitening to transform multi-modal activation differences into low-rank forms, enabling unified quantization across modalities. MASQuant demonstrates stable quantization performance across both dual-modal and tri-modal MLLMs. Experimental results show that MASQuant is competitive among the state-of-the-art PTQ algorithms. Source code: https://github.com/alibaba/EfficientAI.

MASQuant: Модально-осознанное сглаживающее квантование для мультимодальных больших языковых моделей

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Аннотация

Support