ChatPaper.aiChatPaper

Comprendre et exploiter la parcimonie dans les modèles multimodaux unifiés

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
papers.authors: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

papers.abstract

Les grands modèles multimodaux ont réalisé des progrès remarquables en compréhension et en génération. Les travaux récents visent à développer des modèles multimodaux unifiés intégrant des composants hétérogènes pour supporter ces deux capacités dans un cadre unique. Cependant, cette unification introduit des inefficacités lors de l'inférence ; par exemple, certaines tâches ou échantillons pourraient ne pas nécessiter l'intégralité des connaissances ou de la capacité du modèle unifié. Pourtant, une compréhension systématique de la manière dont ces inefficacités se manifestent selon les différents composants reste limitée. Dans ce travail, nous menons d'abord une analyse systématique des composants des modèles multimodaux unifiés en utilisant l'élagage sans entraînement comme méthode d'investigation, en considérant à la fois l'élagage en profondeur et la réduction de la largeur. Notre étude révèle que le composant de compréhension présente une compressibilité notable pour les tâches de compréhension et de génération, cette dernière étant plus prononcée. En revanche, les composants de génération sont très sensibles à la compression, avec une dégradation rapide des performances même sous des taux de compression modérés. Pour remédier à cette limitation, nous proposons l'Adaptation par Mélange d'Experts (MoE), inspirée par les patterns d'activation dynamiques observés pour différents échantillons. Cette approche partitionne le module de génération en plusieurs experts et permet une activation parcimonieuse pour restaurer la qualité de génération. Nous validons l'efficacité de l'activation parcimonieuse via un réglage avec experts gelés et démontrons ensuite qu'une adaptation entièrement entraînable procure des gains supplémentaires. En conséquence, le modèle BAGEL adapté atteint des performances comparables au modèle complet tout en n'activant qu'environ la moitié de ses paramètres. Le code est disponible à l'adresse https://github.com/Shwai-He/SparseUnifiedModel{ce lien}.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025