LatentUM: Het Vrijmaken van het Potentieel van Verweven Cross-Modale Redenering via een Latente-Ruimte Geünificeerd Model

Samenvatting

Unificatiemodellen (UM's) zijn veelbelovend vanwege hun vermogen om inhoud over heterogene modaliteiten heen te begrijpen en te genereren. In vergelijking met het louter genereren van visuele inhoud is het gebruik van UM's voor door elkaar heen gewoven cross-modale redenering veelbelovender en waardevoller, bijvoorbeeld voor het oplossen van begripsproblemen die intensief visueel denken vereisen, het verbeteren van visuele generatie door zelfreflectie, of het modelleren van visuele dynamiek in de fysieke wereld geleid door stapsgewijze actie-interventies. Bestaande UM's vereisen echter pixeldecodering als brug vanwege hun gescheiden visuele representaties voor begrip en generatie, wat zowel inefficiënt als ondoeltreffend is. In dit artikel introduceren we LatentUM, een nieuw unificatiemodel dat alle modaliteiten representeert binnen een gedeelde semantische latente ruimte, waardoor bemiddeling via de pixelruimte tussen visueel begrip en generatie overbodig wordt. Dit ontwerp maakt op natuurlijke wijze flexibele, door elkaar heen gewoven cross-modale redenering en generatie mogelijk. Naast verbeterde computationele efficiëntie verlicht de gedeelde representatie codec-bias aanzienlijk en versterkt het de cross-modale afstemming, waardoor LatentUM state-of-the-art prestaties kan bereiken op de Visual Spatial Planning-benchmark, de grenzen van visuele generatie kan verleggen door zelfreflectie, en wereldmodellering kan ondersteunen door toekomstige visuele toestanden binnen de gedeelde semantische latente ruimte te voorspellen.

English

Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.

LatentUM: Het Vrijmaken van het Potentieel van Verweven Cross-Modale Redenering via een Latente-Ruimte Geünificeerd Model

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Samenvatting

Support