LatentUM: Entfesselung des Potenzials verschachtelter cross-modaler Inferenz durch ein im Latent-Raum vereinheitlichtes Modell

Zusammenfassung

Einheitliche Modelle (UMs) sind vielversprechend aufgrund ihrer Fähigkeit, Inhalte über heterogene Modalitäten hinweg zu verstehen und zu generieren. Im Vergleich zum bloßen Generieren visueller Inhalte ist der Einsatz von UMs für verschachteltes cross-modales Schlussfolgern vielversprechender und wertvoller, z.B. zum Lösen von Verständnisproblemen, die dichtes visuelles Denken erfordern, zur Verbesserung der visuellen Generierung durch Selbstreflexion oder zur Modellierung visueller Dynamiken der physischen Welt anhand schrittweiser Handlungseingriffe. Allerdings erfordern bestehende UMs aufgrund ihrer getrennten visuellen Repräsentationen für Verständnis und Generierung eine Pixeldekodierung als Brücke, was sowohl ineffektiv als auch ineffizient ist. In diesem Artikel stellen wir LatentUM vor, ein neuartiges einheitliches Modell, das alle Modalitäten in einem gemeinsamen semantischen Latentraum abbildet und so die Notwendigkeit einer Pixelraum-Vermittlung zwischen visuellem Verständnis und Generierung eliminiert. Dieser Entwurf ermöglicht natürlicherweise flexibles verschachteltes cross-modales Schlussfolgern und Generieren. Neben verbesserter Recheneffizienz mildert die gemeinsame Repräsentation Codec-Verzerrungen erheblich ab und stärkt die cross-modale Ausrichtung, was LatentUM ermöglicht, state-of-the-art Leistung im Visual Spatial Planning Benchmark zu erzielen, die Grenzen der visuellen Generierung durch Selbstreflexion zu erweitern und Weltmodelle durch die Vorhersage zukünftiger visueller Zustände innerhalb des gemeinsamen semantischen Latentraums zu unterstützen.

English

Unified models (UMs) hold promise for their ability to understand and generate content across heterogeneous modalities. Compared to merely generating visual content, the use of UMs for interleaved cross-modal reasoning is more promising and valuable, e.g., for solving understanding problems that require dense visual thinking, improving visual generation through self-reflection, or modeling visual dynamics of the physical world guided by stepwise action interventions. However, existing UMs necessitate pixel decoding as a bridge due to their disjoint visual representations for understanding and generation, which is both ineffective and inefficient. In this paper, we introduce LatentUM, a novel unified model that represents all modalities within a shared semantic latent space, eliminating the need for pixel-space mediation between visual understanding and generation. This design naturally enables flexible interleaved cross-modal reasoning and generation. Beyond improved computational efficiency, the shared representation substantially alleviates codec bias and strengthens cross-modal alignment, allowing LatentUM to achieve state-of-the-art performance on the Visual Spatial Planning benchmark, push the limits of visual generation through self-reflection, and support world modeling by predicting future visual states within the shared semantic latent space.

LatentUM: Entfesselung des Potenzials verschachtelter cross-modaler Inferenz durch ein im Latent-Raum vereinheitlichtes Modell

LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model

Zusammenfassung

Support