LatentUM : Libérer le potentiel du raisonnement intermodal entrelacé via un modèle unifié d’espace latent

Résumé

Les modèles unifiés (MU) suscitent un vif intérêt pour leur capacité à comprendre et à générer du contenu à travers des modalités hétérogènes. Comparée à la simple génération de contenu visuel, l'utilisation des MU pour un raisonnement intermodal entrelacé est plus prometteuse et précieuse, par exemple pour résoudre des problèmes de compréhension nécessitant une réflexion visuelle dense, améliorer la génération visuelle par auto-réflexion, ou modéliser la dynamique visuelle du monde physique guidée par des interventions actionnelles séquentielles. Cependant, les MU existants nécessitent un décodage pixel comme pont en raison de leurs représentations visuelles disjointes pour la compréhension et la génération, ce qui est à la fois inefficace et peu performant. Dans cet article, nous présentons LatentUM, un nouveau modèle unifié qui représente toutes les modalités dans un espace latent sémantique partagé, éliminant le besoin de médiation dans l'espace pixel entre la compréhension et la génération visuelles. Cette conception permet naturellement un raisonnement et une génération intermodaux entrelacés et flexibles. Au-delà d'une efficacité computationnelle améliorée, la représentation partagée atténue considérablement le biais du codec et renforce l'alignement intermodal, permettant à LatentUM d'atteindre des performances de pointe sur le benchmark de planification spatiale visuelle, de repousser les limites de la génération visuelle par auto-réflexion, et de supporter la modélisation du monde en prédisant les états visuels futurs au sein de l'espace latent sémantique partagé.

English

Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.

LatentUM : Libérer le potentiel du raisonnement intermodal entrelacé via un modèle unifié d’espace latent

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Résumé

Support