LatentUM: Раскрытие потенциала чередующегося кросс-модального мышления с помощью унифицированной модели в латентном пространстве
LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model
April 2, 2026
Авторы: Jiachun Jin, Zetong Zhou, Xiao Yang, Hao Zhang, Pengfei Liu, Jun Zhu, Zhijie Deng
cs.AI
Аннотация
Унифицированные модели (UM) перспективны благодаря своей способности понимать и генерировать контент в гетерогенных модальностях. По сравнению с простой генерацией визуального контента, использование UM для перекрёстного модального рассуждения является более многообещающим и ценным — например, для решения задач понимания, требующих интенсивного визуального мышления, улучшения визуальной генерации через саморефлексию или моделирования визуальной динамики физического мира на основе пошаговых действий. Однако существующие UM требуют декодирования пикселей в качестве моста из-за их разделённых визуальных представлений для понимания и генерации, что неэффективно и затратно. В данной статье мы представляем LatentUM — новую унифицированную модель, которая представляет все модальности в едином семантическом латентном пространстве, устраняя необходимость посредничества пиксельного пространства между визуальным пониманием и генерацией. Такая конструкция естественным образом позволяет осуществлять гибкое перекрёстное модальное рассуждение и генерацию. Помимо повышения вычислительной эффективности, общее представление существенно снижает кодекное смещение и усиливает межмодальное выравнивание, что позволяет LatentUM достигать state-of-the-art результатов в бенчмарке Visual Spatial Planning, расширять пределы визуальной генерации через саморефлексию и поддерживать моделирование мира путём предсказания будущих визуальных состояний в рамках общего семантического латентного пространства.
English
Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.