ChatPaper.aiChatPaper

Понимание и использование разреженности в унифицированных мультимодальных моделях

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
Авторы: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

Аннотация

Крупные мультимодальные модели достигли значительного прогресса как в понимании, так и в генерации. Современные исследования направлены на создание унифицированных мультимодальных моделей, которые интегрируют гетерогенные компоненты для поддержки обеих возможностей в единой архитектуре. Однако такая унификация приводит к неэффективности вывода: например, конкретные задачи или образцы могут не требовать полного объема знаний или мощности унифицированной модели. Тем не менее, систематическое понимание того, как эти неэффективности проявляются в различных компонентах, остается ограниченным. В данной работе мы сначала проводим систематический анализ компонентов унифицированной мультимодальной модели, используя бестренировочный прунинг в качестве метода исследования, рассматривая как прунинг по глубине, так и сокращение по ширине. Наше исследование показывает, что компонент понимания демонстрирует заметную сжимаемость как в задачах понимания, так и генерации, причем в последних это выражено более ярко. В отличие от этого, компоненты генерации высокочувствительны к сжатию: их производительность резко ухудшается даже при умеренных коэффициентах сжатия. Для преодоления этого ограничения мы предлагаем адаптацию на основе смеси экспертов (Mixture-of-Experts, MoE), вдохновленную наблюдаемыми динамическими паттернами активации для различных образцов. Этот подход разделяет модуль генерации на несколько экспертов и позволяет разреженную активацию для восстановления качества генерации. Мы подтверждаем эффективность разреженной активации с помощью тонкой настройки с замороженными экспертами и дополнительно демонстрируем, что полностью обучаемая адаптация дает дополнительные преимущества. В результате адаптированная модель BAGEL достигает производительности, сопоставимой с полной моделью, при активации лишь около половины ее параметров. Код доступен по ссылке: https://github.com/Shwai-He/SparseUnifiedModel{эта ссылка}.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025