ChatPaper.aiChatPaper

Verstehen und Nutzen von Sparsity in vereinheitlichten multimodalen Modellen

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
papers.authors: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

papers.abstract

Große multimodale Modelle haben bemerkenswerte Fortschritte sowohl im Verständnis als auch in der Generierung erzielt. Jüngste Bestrebungen verfolgen vereinheitlichte multimodale Modelle, die heterogene Komponenten integrieren, um beide Fähigkeiten innerhalb eines einzigen Frameworks zu unterstützen. Eine solche Vereinheitlichung führt jedoch zu Inferenzineffizienzen; beispielsweise erfordern bestimmte Aufgaben oder Stichproben möglicherweise nicht das vollständige Wissen oder die gesamte Kapazität des vereinheitlichten Modells. Dennoch ist ein systematisches Verständnis dafür, wie sich diese Ineffizienzen in verschiedenen Komponenten manifestieren, bislang begrenzt. In dieser Arbeit führen wir zunächst eine systematische Analyse der Komponenten vereinheitlichter multimodaler Modelle durch, wobei wir trainingfreies Pruning als Untersuchungsmethode verwenden und sowohl Tiefen- als auch Breitenreduzierung betrachten. Unsere Studie zeigt, dass die Verständniskomponente sowohl bei Verständnis- als auch bei Generierungsaufgaben eine bemerkenswerte Komprimierbarkeit aufweist, die bei Letzteren ausgeprägter ist. Im Gegensatz dazu sind die Generierungskomponenten äußerst kompressionsempfindlich, wobei die Leistung selbst bei moderaten Kompressionsraten stark abfällt. Um diese Einschränkung zu adressieren, schlagen wir die Mixture-of-Experts (MoE)-Adaptierung vor, inspiriert von den beobachteten dynamischen Aktivierungsmustern verschiedener Stichproben. Dieser Ansatz unterteilt das Generierungsmodul in mehrere Experten und ermöglicht eine sparse Aktivierung, um die Generierungsqualität wiederherzustellen. Wir validieren die Wirksamkeit der sparse Aktivierung durch Expert-frozen Tuning und zeigen weiter, dass eine vollständig trainierbare Adaptierung zusätzliche Verbesserungen bringt. Infolgedessen erreicht das adaptierte BAGEL-Modell eine mit dem Vollmodell vergleichbare Leistung, während nur etwa die Hälfte seiner Parameter aktiviert wird. Der Code ist unter https://github.com/Shwai-He/SparseUnifiedModel veröffentlicht.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025