ChatPaper.aiChatPaper

Comprendere e sfruttare la sparsità nei modelli multimodali unificati

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
Autori: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

Abstract

I modelli multimodali di grandi dimensioni hanno compiuto progressi notevoli sia nella comprensione che nella generazione. Recenti sforzi mirano a realizzare modelli multimodali unificati che integrino componenti eterogenei per supportare entrambe le capacità all'interno di un unico framework. Tuttavia, tale unificazione introduce inefficienze nell'inferenza; ad esempio, specifici task o campioni potrebbero non richiedere la conoscenza o la capacità completa del modello unificato. Tuttavia, una comprensione sistematica di come queste inefficienze si manifestino attraverso i diversi componenti rimane limitata. In questo lavoro, conduciamo prima un'analisi sistematica dei componenti dei modelli multimodali unificati utilizzando il pruning *training-free* come metodologia di indagine, considerando sia il pruning in profondità che la riduzione in ampiezza. Il nostro studio rivela che il componente di comprensione mostra una notevole comprimibilità sia nei task di comprensione che di generazione, risultando più pronunciata in quest'ultimo caso. Al contrario, i componenti di generazione sono altamente sensibili alla compressione, con una performance che si deteriora bruscamente anche con modici rapporti di compressione. Per affrontare questa limitazione, proponiamo l'Adattamento a Miscela di Esperti (*Mixture-of-Experts, MoE*), ispirato dai pattern di attivazione dinamica osservati tra diversi campioni. Questo approccio suddivide il modulo di generazione in più esperti e abilita un'attivazione sparsa per ripristinare la qualità della generazione. Validiamo l'efficacia dell'attivazione sparsa attraverso una messa a punto con esperti congelati (*expert-frozen tuning*) e dimostriamo ulteriormente che un adattamento completamente addestrabile fornisce miglioramenti aggiuntivi. Di conseguenza, il modello BAGEL adattato raggiunge performance paragonabili al modello completo attivando solo circa la metà dei suoi parametri. Il codice è rilasciato all'indirizzo https://github.com/Shwai-He/SparseUnifiedModel{questo link}.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025