Forzado de Representación para Modelos Multimodales Unificados sin Cuellos de Botella

Resumen

Modelos multimodales unificados (UMMs) buscan manejar la percepción y la generación en un solo modelo. Sin embargo, los UMMs existentes aún dependen de un VAE congelado, preentrenado por separado, para la generación de imágenes, lo que impone un cuello de botella estructural. Eliminarlo ingenuamente introduce una brecha de calidad, ya que el modelo debe aprender tanto la estructura de alto nivel como los detalles de bajo nivel a partir de píxeles en bruto. En este artículo, proponemos Representation Forcing (RF), una técnica que cierra esta brecha al hacer que la predicción de representaciones sea una capacidad nativa del modelo. Concretamente, RF obliga al decodificador a predecir autorregresivamente representaciones visuales como tokens intermedios antes que los píxeles; estos tokens luego permanecen en contexto para guiar la difusión de píxeles dentro del mismo backbone. Al convertir las representaciones de salidas de percepción en objetivos de generación, RF elimina la necesidad de cualquier espacio latente generativo externo. Encontramos que RF beneficia tanto la comprensión como la generación. En generación de imágenes, nuestro modelo en espacio de píxeles con RF iguala a los modelos unificados basados en VAE de última generación. En comprensión de imágenes, RF en espacio de píxeles generalmente supera a su variante basada en VAE. En conjunto, estos resultados ofrecen un paso efectivo hacia UMMs de extremo a extremo y sin cuellos de botella.

English

Unified multimodal models (UMMs) aim to handle perception and generation in a single model. Yet existing UMMs still rely on a frozen, separately pretrained VAE for image generation, imposing a structural bottleneck. Naively removing it introduces a quality gap, as the model must learn both high-level structure and low-level details from raw pixels. In this paper, we propose Representation Forcing (RF), a technique that closes this gap by making representation prediction a native capability of the model. Concretely, RF forces the decoder to autoregressively predict visual representations as intermediate tokens before pixels; these tokens then stay in context to guide pixel diffusion within the same backbone. By turning representations from perception outputs into generation targets, RF eliminates the need for any external generative latent space. We find that RF benefits both understanding and generation. On image generation, our pixel-space model with RF matches state-of-the-art VAE-based unified models. On image understanding, pixel-space RF generally outperforms its VAE-based variant. Together, these results offer an effective step toward end-to-end, bottleneck-free UMMs.