ChatPaper.aiChatPaper

통합 멀티모달 모델에서 희소성의 이해와 활용

Understanding and Harnessing Sparsity in Unified Multimodal Models

December 2, 2025
저자: Shwai He, Chaorui Deng, Ang Li, Shen Yan
cs.AI

초록

대규모 멀티모달 모델은 이해와 생성 분야 모두에서 놀라운 발전을 이루었습니다. 최근 연구들은 이질적인 구성 요소를 통합하여 단일 프레임워크 내에서 두 가지 능력을 모두 지원하는 통합 멀티모달 모델을 추구하고 있습니다. 그러나 이러한 통합은 추론 비효율성을 초래하는데, 예를 들어 특정 작업이나 샘플이 통합 모델의 전체 지식이나 역량을 필요로 하지 않을 수 있습니다. 하지만 이러한 비효율성이 다양한 구성 요소에서 어떻게 나타나는지에 대한 체계적인 이해는 여전히 부족합니다. 본 연구에서는 학습 없이 수행하는 프루닝을 탐색 방법론으로 활용하여 통합 멀티모달 모델 구성 요소의 체계적인 분석을 먼저 수행하며, 깊이 프루닝과 폭 축소를 모두 고려합니다. 우리의 연구 결과, 이해 구성 요소는 이해와 생성 작업 모두에서 현저한 압축 가능성을 보이며, 특히 생성 작업에서 더 두드러집니다. 반면 생성 구성 요소는 압축에 매우 민감하여 중간 정도의 압축률에서도 성능이 급격히 저하됩니다. 이러한 한계를 해결하기 위해 우리는 다양한 샘플에서 관찰된 동적 활성화 패턴에서 영감을 받은 Mixture-of-Experts(MoE) Adaptation을 제안합니다. 이 접근법은 생성 모듈을 여러 전문가로 분할하고 희소 활성화를 통해 생성 품질을 회복합니다. 우리는 전문가 동결 튜닝을 통해 희소 활성화의 효과를 검증하고, 완전히 학습 가능한 adaptation이 추가적인 성능 향상을 가져옴을 추가로 입증합니다. 그 결과, adaptation된 BAGEL 모델은 매개변수의 약 절반만 활성화하면서도 전체 모델에 버금가는 성능을 달성합니다. 코드는 https://github.com/Shwai-He/SparseUnifiedModel{해당 링크}에서 공개됩니다.
English
Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at https://github.com/Shwai-He/SparseUnifiedModel{this link}.
PDF11December 4, 2025