Repräsentationserzwingung für engpassfreie vereinheitlichte multimodale Modelle

Zusammenfassung

Unified Multimodale Modelle (UMMs) zielen darauf ab, Wahrnehmung und Generierung in einem einzigen Modell zu vereinen. Dennoch sind bestehende UMMs nach wie vor auf ein eingefrorenes, separat vortrainiertes VAE für die Bildgenerierung angewiesen, was einen strukturellen Engpass darstellt. Ein naives Entfernen desselben führt zu einer Qualitätslücke, da das Modell sowohl hochrangige Strukturen als auch niederstufige Details aus den rohen Pixeln lernen muss. In diesem Papier schlagen wir Representation Forcing (RF) vor, eine Technik, die diese Lücke schließt, indem sie die Repräsentationsvorhersage zu einer einheimischen Fähigkeit des Modells macht. Konkret zwingt RF den Dekoder dazu, visuelle Repräsentationen als Zwischentokens vor den Pixeln autoregressiv vorherzusagen; diese Tokens bleiben dann im Kontext, um die Pixel-Diffusion innerhalb desselben Backbones zu leiten. Indem RF Repräsentationen von Wahrnehmungsausgaben in Generierungsziele umwandelt, wird die Notwendigkeit eines externen latenten Raums für die Generierung eliminiert. Wir stellen fest, dass RF sowohl dem Verständnis als auch der Generierung zugutekommt. Bei der Bildgenerierung erreicht unser pixelbasiertes Modell mit RF den Stand der Technik VAE-basierter Unified Modelle. Beim Bildverständnis übertrifft das pixelbasierte RF in der Regel seine VAE-basierte Variante. Zusammen bieten diese Ergebnisse einen effektiven Schritt in Richtung Ende-zu-Ende, engpassfreier UMMs.

English

Unified multimodal models (UMMs) aim to handle perception and generation in a single model. Yet existing UMMs still rely on a frozen, separately pretrained VAE for image generation, imposing a structural bottleneck. Naively removing it introduces a quality gap, as the model must learn both high-level structure and low-level details from raw pixels. In this paper, we propose Representation Forcing (RF), a technique that closes this gap by making representation prediction a native capability of the model. Concretely, RF forces the decoder to autoregressively predict visual representations as intermediate tokens before pixels; these tokens then stay in context to guide pixel diffusion within the same backbone. By turning representations from perception outputs into generation targets, RF eliminates the need for any external generative latent space. We find that RF benefits both understanding and generation. On image generation, our pixel-space model with RF matches state-of-the-art VAE-based unified models. On image understanding, pixel-space RF generally outperforms its VAE-based variant. Together, these results offer an effective step toward end-to-end, bottleneck-free UMMs.