LatentUMM: Двойное латентное согласование для унифицированных мультимодальных моделей

Аннотация

Объединенные мультимодальные модели (ОММ) достигают высокой производительности как в понимании, так и в генерации за счет обучения общему латентному пространству, однако часто демонстрируют функциональную несогласованность между этими двумя способностями. Мы наблюдаем, что данная проблема вызвана не отсутствием общих представлений, а отсутствием явного выравнивания между преобразованиями, которые отображают данные в латентное пространство и из него. В результате генерация и повторное кодирование могут следовать несогласованным траекториям, что приводит к семантическому дрейфу при переходах между модальностями. В данной работе мы предлагаем LatentUMM — фреймворк, который формирует расширенное общее латентное пространство для явного выравнивания этих преобразований и улучшения кросс-модальной согласованности. LatentUMM состоит из двух этапов. Во-первых, двойное латентное выравнивание обеспечивает согласованность на уровнях модальности и емкости: кросс-модальное выравнивание использует более сильную модель встраивания для наложения структурированной кросс-модальной семантики, а двойное выравнивание емкости обеспечивает двунаправленную согласованность при генерации и повторном кодировании. Во-вторых, стабилизация латентной динамики повышает устойчивость с помощью стохастических латентных разверток и оптимизации предпочтений, отдавая предпочтение траекториям, которые лучше сохраняют семантическую согласованность. Эксперименты показывают, что LatentUMM последовательно улучшает мультимодальную согласованность в различных архитектурах. Код доступен по адресу: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.

English

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.