ChatPaper.aiChatPaper

Comprensión y aprovechamiento de la dispersión en modelos multimodales unificados

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
Autores: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

Resumen

Los modelos multimodales grandes han logrado avances notables tanto en comprensión como en generación. Esfuerzos recientes persiguen modelos multimodales unificados que integren componentes heterogéneos para soportar ambas capacidades dentro de un único marco. Sin embargo, dicha unificación introduce ineficiencias en la inferencia; por ejemplo, tareas o muestras específicas pueden no requerir todo el conocimiento o capacidad del modelo unificado. No obstante, aún es limitada la comprensión sistemática de cómo se manifiestan estas ineficiencias en los diferentes componentes. En este trabajo, primero realizamos un análisis sistemático de los componentes de modelos multimodales unificados utilizando la poda *training-free* como metodología de sondeo, considerando tanto la poda en profundidad como la reducción en amplitud. Nuestro estudio revela que el componente de comprensión exhibe una notable compresibilidad tanto en tareas de comprensión como de generación, siendo más pronunciada en estas últimas. Por el contrario, los componentes de generación son altamente sensibles a la compresión, con un rendimiento que se deteriora abruptamente incluso con ratios de compresión moderados. Para abordar esta limitación, proponemos la Adaptación de Mezcla de Expertos (MoE), inspirada en los patrones de activación dinámicos observados en diferentes muestras. Este enfoque divide el módulo de generación en múltiples expertos y permite una activación dispersa para restaurar la calidad de la generación. Validamos la efectividad de la activación dispersa mediante ajuste con expertos congelados y demostramos además que una adaptación completamente entrenable aporta mejoras adicionales. Como resultado, el modelo BAGEL adaptado alcanza un rendimiento comparable al modelo completo mientras activa solo aproximadamente la mitad de sus parámetros. El código se ha publicado en https://github.com/Shwai-He/SparseUnifiedModel{este enlace}.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025