MMCORE: Conexão Multimodal com Representações Alinhadas em Espaços Latentes

Resumo

Apresentamos o MMCORE, uma estrutura unificada concebida para geração e edição multimodal de imagens. O MMCORE aproveita um Modelo de Visão e Linguagem (VLM) pré-treinado para prever incorporações visuais semânticas por meio de *tokens* de consulta treináveis, que subsequentemente servem como sinais de condicionamento para um modelo de difusão. Este design simplificado transfere eficazmente as ricas capacidades de compreensão e raciocínio dos VLMs para o processo de geração visual. Ao eliminar a necessidade de fusão profunda entre modelos autoregressivos e de difusão ou treinamento a partir do zero, o MMCORE reduz significativamente a sobrecarga computacional, mantendo uma síntese de alta fidelidade. O MMCORE integra perfeitamente a síntese de texto para imagem com a geração de imagens intercaladas, demonstrando uma compreensão multimodal robusta em cenários complexos, como raciocínio espacial e fundamentação visual. Avaliações abrangentes indicam que o MMCORE supera consistentemente os modelos de referência state-of-the-art em uma ampla gama de benchmarks de edição de texto para imagem e edição de imagem única/múltipla.

English

We present MMCORE, a unified framework designed for multimodal image generation and editing. MMCORE leverages a pre-trained Vision-Language Model (VLM) to predict semantic visual embeddings via learnable query tokens, which subsequently serve as conditioning signals for a diffusion model. This streamlined design effectively transfers the rich understanding and reasoning capabilities of VLMs into the visual generation process. By obviating the need for deep fusion between autoregressive and diffusion models or training from scratch, MMCORE significantly reduces computational overhead while maintaining high-fidelity synthesis. MMCORE seamlessly integrates text-to-image synthesis with interleaved image generation, demonstrating robust multimodal comprehension in complex scenarios such as spatial reasoning and visual grounding. Comprehensive evaluations indicate that MMCORE consistently outperforms state-of-the-art baselines across a broad spectrum of text-to-image and single/multi-image editing benchmarks.

MMCORE: Conexão Multimodal com Representações Alinhadas em Espaços Latentes

MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

Resumo

Support