LatentUM: Liberando el Potencial del Razonamiento Intercalado Multimodal mediante un Modelo Unificado en Espacio Latente

Resumen

Los modelos unificados (MU) son prometedores por su capacidad para comprender y generar contenido a través de modalidades heterogéneas. En comparación con la mera generación de contenido visual, el uso de MUs para el razonamiento cruzado intercalado es más prometedor y valioso, por ejemplo, para resolver problemas de comprensión que requieren un pensamiento visual denso, mejorar la generación visual mediante la autorreflexión o modelar la dinámica visual del mundo físico guiada por intervenciones de acción paso a paso. Sin embargo, los MUs existentes requieren decodificación de píxeles como puente debido a sus representaciones visuales disjuntas para comprensión y generación, lo que resulta ineficaz e ineficiente. En este artículo, presentamos LatentUM, un modelo unificado novedoso que representa todas las modalidades dentro de un espacio latente semántico compartido, eliminando la necesidad de mediación en el espacio de píxeles entre la comprensión y generación visual. Este diseño permite naturalmente un razonamiento y generación cruzada intercalados flexibles. Más allá de una eficiencia computacional mejorada, la representación compartida alivia sustancialmente el sesgo del códec y fortalece la alineación cruzada, permitiendo a LatentUM lograr un rendimiento de vanguardia en el benchmark de Planificación Visual Espacial, impulsar los límites de la generación visual mediante autorreflexión y apoyar el modelado del mundo mediante la predicción de estados visuales futuros dentro del espacio latente semántico compartido.

English

Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.

LatentUM: Liberando el Potencial del Razonamiento Intercalado Multimodal mediante un Modelo Unificado en Espacio Latente

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Resumen

Support