ChatPaper.aiChatPaper

統一マルチモーダルモデルにおけるスパース性の理解と活用

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
著者: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

要旨

大規模マルチモーダルモデルは、理解と生成の両面で著しい進歩を遂げている。近年の研究では、異種コンポーネントを統合し、単一フレームワーク内で両機能をサポートする統一マルチモーダルモデルの実現が追求されている。しかし、このような統一化は推論の非効率性を招く。例えば、特定のタスクやサンプルでは統一モデルの全知識や容量を必要としない場合がある。にもかかわらず、これらの非効率性が異なるコンポーネント間でどのように現れるかについての体系的理解は限られている。本研究ではまず、トレーニング不要の枝刈りを probing 手法として用い、深度方向の枝刈りと幅方向の削減の両方を考慮し、統一マルチモーダルモデルコンポーネントの体系的分析を行う。我々の調査により、理解コンポーネントは理解タスクと生成タスクの両方で顕著な圧縮可能性を示し、特に後者でより顕著であることが明らかになった。対照的に、生成コンポーネントは圧縮に対して非常に敏感であり、中程度の圧縮率でも性能が急激に劣化する。この制限に対処するため、我々は異なるサンプル間で観察される動的活性化パターンに着想を得たMixture-of-Experts (MoE) Adaptationを提案する。このアプローチは生成モジュールを複数のエキスパートに分割し、疎な活性化を可能にすることで生成品質を回復させる。エキスパート凍結チューニングを通じて疎活性化の有効性を検証し、さらに完全に学習可能な適応が追加の性能向上をもたらすことを実証する。その結果、適応されたBAGELモデルは、パラメータの約半分のみを活性化しながら、完全なモデルに匹敵する性能を達成する。コードはhttps://github.com/Shwai-He/SparseUnifiedModel{このリンク}で公開されている。
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025