LatentUMM: Alineación latente dual para modelos multimodales unificados

Resumen

Los modelos multimodales unificados (UMM) logran un alto rendimiento tanto en comprensión como en generación al aprender un espacio latente compartido, pero a menudo presentan una inconsistencia funcional entre estas dos capacidades. Observamos que este problema no surge de la falta de representaciones compartidas, sino de la ausencia de una alineación explícita entre las transformaciones que mapean hacia y desde el espacio latente. Como resultado, la generación y la recodificación pueden seguir trayectorias inconsistentes, lo que provoca una deriva semántica durante las transiciones de modalidad. En este trabajo, proponemos LatentUMM, un marco que construye un espacio latente compartido mejorado para alinear explícitamente estas transformaciones y mejorar la consistencia entre modalidades. LatentUMM consta de dos etapas. En primer lugar, la alineación latente dual impone consistencia tanto a nivel de modalidad como de capacidad: la alineación entre modalidades utiliza un modelo de incrustación más robusto para imponer semántica estructurada entre modalidades, mientras que la alineación de capacidad dual garantiza consistencia bidireccional bajo generación y recodificación. En segundo lugar, la estabilización de la dinámica latente mejora la robustez mediante despliegues latentes estocásticos y optimización de preferencias, favoreciendo trayectorias que preservan mejor la consistencia semántica. Los experimentos muestran que LatentUMM mejora consistentemente la consistencia multimodal en diversas arquitecturas. El código está disponible en: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.

English

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.