ChatPaper.aiChatPaper

Het begrijpen en benutten van sparse gegevens in verenigde multimodale modellen

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
Auteurs: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

Samenvatting

Grote multimodale modellen hebben aanzienlijke vooruitgang geboekt in zowel begrip als generatie. Recente inspanningen richten zich op verenigde multimodale modellen die heterogene componenten integreren om beide capaciteiten binnen één raamwerk te ondersteunen. Deze eenmaking introduceert echter inferentie-inefficiënties; specifieke taken of voorbeelden vereisen mogelijk niet de volledige kennis of capaciteit van het verenigde model. Een systematisch begrip van hoe deze inefficiënties zich manifesteren across verschillende componenten blijft echter beperkt. In dit werk voeren we eerst een systematische analyse uit van componenten van verenigde multimodale modellen met behulp van trainingsvrije pruning als onderzoeksmethode, waarbij we zowel depth-pruning als width-reductie overwegen. Onze studie toont aan dat de begripscomponent aanzienlijke comprimeerbaarheid vertoont bij zowel begrips- als generatietaken, wat meer uitgesproken is bij de laatste. Daarentegen zijn de generatiecomponenten zeer gevoelig voor compressie, waarbij de prestaties sterk verslechteren zelfs onder matige compressieverhoudingen. Om deze beperking aan te pakken, stellen we de Mixture-of-Experts (MoE)-adaptatie voor, geïnspireerd door de waargenomen dynamische activeringspatronen across verschillende voorbeelden. Deze aanpak verdeelt de generatiemodule in meerdere experts en maakt sparse activering mogelijk om de generatiekwaliteit te herstellen. We valideren de effectiviteit van sparse activering door expert- bevroren fine-tuning en tonen verder aan dat een volledig trainbare adaptatie extra winst oplevert. Hierdoor bereikt het aangepaste BAGEL-model prestaties vergelijkbaar met het volledige model terwijl slechts ongeveer de helft van zijn parameters wordt geactiveerd. De code is vrijgegeven op https://github.com/Shwai-He/SparseUnifiedModel.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025