LatentUMM: Duale latente Ausrichtung für einheitliche multimodale Modelle

Zusammenfassung

Vereinheitlichte multimodale Modelle (UMMs) erzielen durch das Lernen eines gemeinsamen latenten Raums sowohl im Verständnis als auch in der Generierung hohe Leistung, weisen jedoch häufig funktionale Inkonsistenzen zwischen diesen beiden Fähigkeiten auf. Wir beobachten, dass dieses Problem nicht auf fehlende gemeinsame Repräsentationen zurückzuführen ist, sondern auf das Fehlen einer expliziten Abstimmung zwischen den Transformationen, die in den latenten Raum hinein und aus ihm heraus abbilden. Infolgedessen können Generierung und erneute Kodierung inkonsistenten Trajektorien folgen, was bei Modalitätsübergängen zu semantischer Drift führt. In dieser Arbeit schlagen wir LatentUMM vor, ein Framework, das einen erweiterten gemeinsamen latenten Raum konstruiert, um diese Transformationen explizit abzustimmen und die cross-modale Konsistenz zu verbessern. LatentUMM besteht aus zwei Phasen. Erstens wird durch eine duale latente Abstimmung Konsistenz sowohl auf Modalitäts- als auch auf Kapazitätsebene erzwungen: Cross-modale Abstimmung verwendet ein stärkeres Einbettungsmodell, um strukturierte cross-modale Semantik aufzuerlegen, während eine duale Kapazitätsabstimmung bidirektionale Konsistenz unter Generierung und erneuter Kodierung erzwingt. Zweitens verbessert die Stabilisierung der latenten Dynamik die Robustheit durch stochastische latente Rollouts und Präferenzoptimierung, wobei Trajektorien bevorzugt werden, die die semantische Konsistenz besser bewahren. Experimente zeigen, dass LatentUMM die multimodale Konsistenz in verschiedenen Architekturen konsistent verbessert. Der Code ist verfügbar unter: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM

English

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.