LatentUMM: Dubbele Latente Uitlijning voor Geünificeerde Multimodale Modellen

Samenvatting

Unified multimodale modellen (UMM's) behalen sterke prestaties in zowel begrip als generatie door een gedeelde latente ruimte te leren, maar vertonen vaak functionele inconsistentie tussen deze twee capaciteiten. Wij observeren dat dit probleem niet voortkomt uit een gebrek aan gedeelde representaties, maar uit de afwezigheid van expliciete afstemming tussen de transformaties die naar en uit de latente ruimte afbeelden. Als gevolg hiervan kunnen generatie en hercodering inconsistente trajecten volgen, wat leidt tot semantische drift bij modaliteitsovergangen. In dit werk stellen we LatentUMM voor, een raamwerk dat een verbeterde gedeelde latente ruimte construeert om deze transformaties expliciet af te stemmen en de cross-modale consistentie te verbeteren. LatentUMM bestaat uit twee fasen. Ten eerste dwingt duale latente afstemming consistentie af op zowel het modaliteits- als het capaciteitsniveau: cross-modale afstemming gebruikt een sterker inbeddingsmodel om gestructureerde cross-modale semantiek op te leggen, terwijl duale capaciteitsafstemming bidirectionele consistentie afdwingt onder generatie en hercodering. Ten tweede verbetert latente dynamiekenstabilisatie de robuustheid via stochastische latente rollouts en preferentieoptimalisatie, waarbij de voorkeur uitgaat naar trajecten die de semantische consistentie beter behouden. Experimenten tonen aan dat LatentUMM de multimodale consistentie consistent verbetert in diverse architecturen. Code is beschikbaar op: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.

English

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.