LatentUM: Liberando o Potencial do Raciocínio Intercalado Multimodal por meio de um Modelo Unificado no Espaço Latente

Resumo

Os modelos unificados (MUs) demonstram potencial devido à sua capacidade de compreender e gerar conteúdo em múltiplas modalidades heterogéneas. Em comparação com a mera geração de conteúdo visual, a utilização de MUs para raciocínio cruzado intercalado é mais promissora e valiosa, por exemplo, para resolver problemas de compreensão que exigem pensamento visual denso, melhorar a geração visual através da autorreflexão ou modelar a dinâmica visual do mundo físico orientada por intervenções de ação sequenciais. No entanto, os MUs existentes exigem a descodificação de píxeis como ponte, devido às suas representações visuais dissociadas para compreensão e geração, o que é ineficaz e ineficiente. Neste artigo, apresentamos o LatentUM, um novo modelo unificado que representa todas as modalidades num espaço latente semântico partilhado, eliminando a necessidade de mediação no espaço de píxeis entre a compreensão e a geração visual. Este design permite naturalmente um raciocínio e geração cruzada intercalados e flexíveis. Para além de uma melhor eficiência computacional, a representação partilhada alivia substancialmente o viés do codec e reforça o alinhamento entre modalidades, permitindo ao LatentUM alcançar um desempenho de ponta no benchmark de Planeamento Espacial Visual, expandir os limites da geração visual através da autorreflexão e suportar a modelação do mundo através da previsão de estados visuais futuros dentro do espaço latente semântico partilhado.

English

Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.

LatentUM: Liberando o Potencial do Raciocínio Intercalado Multimodal por meio de um Modelo Unificado no Espaço Latente

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Resumo

Support