UniCom: 압축된 연속 의미 표현을 통한 통합 멀티모달 모델링
UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
March 11, 2026
저자: Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo
cs.AI
초록
현재의 통합 멀티모달 모델들은 일반적으로 모달리티 간 차이를 해소하기 위해 이산적 시각 토크나이저에 의존합니다. 그러나 이산화 과정에서는 필연적으로 세밀한 의미 정보가 손실되어 시각 이해 과제에서 최적의 성능을 달성하지 못하는 한계가 있습니다. 반면, 연속적 의미 표현(예: CLIP, SigLIP)을 직접 모델링하는 방식은 고차원 생성 모델링에서 심각한 어려움을 겪으며, 수렴 속도가 느리고 훈련 불안정성을 초래합니다. 이러한 딜레마를 해결하기 위해 우리는 압축된 연속적 표현을 통해 멀티모달 이해와 생성을 조화롭게 통합하는 UniCom 프레임워크를 제안합니다. 실험적으로 채널 차원 축소가 공간적 다운샘플링보다 재구성 및 생성 성능에 훨씬 효과적임을 입증하였습니다. 이에 따라 우리는 집중 기반 의미 압축기를 설계하여 고밀도 특징을 컴팩트한 통합 표현으로 정제합니다. 더 나아가 수혈 아키텍처가 쿼리 기반 설계보다 수렴성과 일관성에서 우수함을 검증하였습니다. 실험 결과 UniCom은 통합 모델 중 최고 수준의 생성 성능을 달성함을 보여줍니다. 특히, 풍부한 의미 사전 정보를 보존함으로써 이미지 편집에서 탁월한 제어 가능성을 제공하며 VAE 의존 없이도 이미지 일관성을 유지합니다.
English
Current unified multimodal models typically rely on discrete visual tokenizers to bridge the modality gap. However, discretization inevitably discards fine-grained semantic information, leading to suboptimal performance in visual understanding tasks. Conversely, directly modeling continuous semantic representations (e.g., CLIP, SigLIP) poses significant challenges in high-dimensional generative modeling, resulting in slow convergence and training instability. To resolve this dilemma, we introduce UniCom, a unified framework that harmonizes multimodal understanding and generation via compressed continuous representation. We empirically demonstrate that reducing channel dimension is significantly more effective than spatial downsampling for both reconstruction and generation. Accordingly, we design an attention-based semantic compressor to distill dense features into a compact unified representation. Furthermore, we validate that the transfusion architecture surpasses query-based designs in convergence and consistency. Experiments demonstrate that UniCom achieves state-of-the-art generation performance among unified models. Notably, by preserving rich semantic priors, it delivers exceptional controllability in image editing and maintains image consistency even without relying on VAE.