Compreensão e Aproveitamento da Esparsidade em Modelos Multimodais Unificados

Resumo

Os grandes modelos multimodais alcançaram progressos notáveis tanto na compreensão quanto na geração. Esforços recentes buscam modelos multimodais unificados que integram componentes heterogêneos para suportar ambas as capacidades em um único framework. No entanto, essa unificação introduz ineficiências na inferência, por exemplo, tarefas ou amostras específicas podem não exigir todo o conhecimento ou capacidade do modelo unificado. Ainda assim, uma compreensão sistemática de como essas ineficiências se manifestam em diferentes componentes permanece limitada. Neste trabalho, primeiro conduzimos uma análise sistemática dos componentes do modelo multimodal unificado usando a poda livre de treinamento como metodologia de sondagem, considerando tanto a poda em profundidade quanto a redução em largura. Nosso estudo revela que o componente de compreensão exibe notável compressibilidade tanto em tarefas de compreensão quanto de geração, sendo mais pronunciada nesta última. Em contraste, os componentes de geração são altamente sensíveis à compressão, com o desempenho deteriorando-se acentuadamente mesmo sob taxas de compressão moderadas. Para superar essa limitação, propomos a Adaptação por Mistura de Especialistas (MoE), inspirada pelos padrões de ativação dinâmica observados em diferentes amostras. Esta abordagem particiona o módulo de geração em múltiplos especialistas e permite ativação esparsa para restaurar a qualidade da geração. Validamos a eficácia da ativação esparsa através do ajuste com especialistas congelados e demonstramos ainda que uma adaptação totalmente treinável proporciona ganhos adicionais. Como resultado, o modelo BAGEL adaptado alcança um desempenho comparável ao modelo completo enquanto ativa apenas cerca de metade de seus parâmetros. O código está disponível em https://github.com/Shwai-He/SparseUnifiedModel{este link}.

English

Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.

Compreensão e Aproveitamento da Esparsidade em Modelos Multimodais Unificados

Understanding and Harnessing Sparsity in Unified Multimodal Models

Resumo

Support