LatentUMM: 이중 잠재 정렬을 통한 통합 멀티모달 모델
LatentUMM: Dual Latent Alignment for Unified Multimodal Models
May 18, 2026
저자: Yinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang
cs.AI
초록
통합 멀티모달 모델(UMM)은 공유 잠재 공간을 학습하여 이해와 생성 모두에서 강력한 성능을 달성하지만, 종종 이 두 능력 간 기능적 불일치를 나타낸다. 우리는 이 문제가 공유 표현의 부족 때문이 아니라, 잠재 공간으로 매핑하고 잠재 공간에서 나오는 변환 간의 명시적 정렬이 없기 때문임을 관찰한다. 결과적으로 생성과 재인코딩이 일관되지 않은 궤적을 따를 수 있으며, 이는 모달리티 전환 하에서 의미적 표류를 초래한다. 본 연구에서는 이러한 변환을 명시적으로 정렬하고 교차 모달 일관성을 개선하기 위해 향상된 공유 잠재 공간을 구축하는 프레임워크인 LatentUMM을 제안한다. LatentUMM은 두 단계로 구성된다. 첫째, 이중 잠재 정렬은 모달리티와 용량 수준 모두에서 일관성을 강제한다. 교차 모달 정렬은 더 강력한 임베딩 모델을 사용하여 구조화된 교차 모달 의미론을 부과하는 반면, 이중 용량 정렬은 생성과 재인코딩 하에서 양방향 일관성을 강제한다. 둘째, 잠재 동역학 안정화는 확률적 잠재 롤아웃과 선호도 최적화를 통해 견고성을 향상시켜 의미적 일관성을 더 잘 보존하는 궤적을 선호한다. 실험 결과, LatentUMM은 다양한 아키텍처에서 멀티모달 일관성을 일관되게 개선함을 보여준다. 코드는 https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM 에서 확인할 수 있다.
English
Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.