LatentUMM : Double Alignement Latent pour Modèles Multimodaux Unifiés

Résumé

Modèles multimodaux unifiés (MMUs) obtiennent de bonnes performances en compréhension et en génération grâce à l'apprentissage d'un espace latent partagé, mais présentent souvent une incohérence fonctionnelle entre ces deux capacités. Nous observons que ce problème ne provient pas d'un manque de représentations partagées, mais de l'absence d'alignement explicite entre les transformations qui entrent et sortent de l'espace latent. En conséquence, la génération et le réencodage peuvent suivre des trajectoires incohérentes, conduisant à une dérive sémantique lors des transitions de modalités. Dans ce travail, nous proposons LatentUMM, un cadre qui construit un espace latent partagé amélioré pour aligner explicitement ces transformations et améliorer la cohérence inter-modale. LatentUMM se compose de deux étapes. Premièrement, l'alignement latent double impose la cohérence à la fois au niveau des modalités et des capacités : l'alignement inter-modal utilise un modèle d'embedding plus fort pour imposer une sémantique inter-modale structurée, tandis que l'alignement de double capacité impose une cohérence bidirectionnelle sous génération et réencodage. Deuxièmement, la stabilisation de la dynamique latente améliore la robustesse via des déploiements latents stochastiques et l'optimisation des préférences, favorisant les trajectoires qui préservent mieux la cohérence sémantique. Les expériences montrent que LatentUMM améliore systématiquement la cohérence multimodale à travers diverses architectures. Le code est disponible à : https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.

English

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.