LatentUMM: Alinhamento Latente Dual para Modelos Multimodais Unificados

Resumo

Modelos multimodais unificados (MMUs) apresentam desempenho sólido tanto na compreensão quanto na geração ao aprender um espaço latente compartilhado, mas frequentemente exibem inconsistência funcional entre essas duas capacidades. Observamos que esse problema não decorre da falta de representações compartilhadas, mas sim da ausência de um alinhamento explícito entre as transformações que mapeiam para dentro e para fora do espaço latente. Como resultado, a geração e a re-codificação podem seguir trajetórias inconsistentes, levando à deriva semântica durante transições entre modalidades. Neste trabalho, propomos o LatentUMM, um arcabouço que constrói um espaço latente compartilhado aprimorado para alinhar explicitamente essas transformações e melhorar a consistência entre modalidades. O LatentUMM consiste em duas etapas. Primeiro, o alinhamento latente duplo impõe consistência tanto no nível de modalidade quanto no de capacidade: o alinhamento entre modalidades utiliza um modelo de embedding mais robusto para impor semântica estruturada entre modalidades, enquanto o alinhamento duplo de capacidade impõe consistência bidirecional sob geração e re-codificação. Em segundo lugar, a estabilização da dinâmica latente melhora a robustez por meio de rollouts latentes estocásticos e otimização de preferência, favorecendo trajetórias que melhor preservam a consistência semântica. Experimentos mostram que o LatentUMM melhora consistentemente a consistência multimodal em diversas arquiteturas. O código está disponível em: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.

English

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.