UniFusion: Modelo de Visão-Linguagem como Codificador Unificado na Geração de Imagens
UniFusion: Vision-Language Model as Unified Encoder in Image Generation
October 14, 2025
Autores: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI
Resumo
Embora os avanços recentes na geração visual tenham sido notáveis, a maioria das arquiteturas existentes ainda depende de codificadores distintos para imagens e texto. Essa separação limita a capacidade dos modelos de difusão de realizar raciocínio e transferência de conhecimento entre modalidades. Tentativas anteriores de preencher essa lacuna frequentemente utilizam informações da última camada de modelos de linguagem visual (VLM), empregam múltiplos codificadores visuais ou treinam modelos unificados de grande porte conjuntamente para geração de texto e imagem, o que demanda recursos computacionais substanciais e dados em larga escala, limitando sua acessibilidade. Apresentamos o UniFusion, um modelo generativo baseado em difusão condicionado a um modelo de linguagem visual (VLM) grande e congelado que serve como um codificador multimodal unificado. No cerne do UniFusion está o mecanismo de Pooling de Atenção por Camadas (LAP), que extrai tanto semântica de alto nível quanto detalhes de baixo nível de tokens de texto e visuais de um VLM congelado para condicionar um modelo generativo de difusão. Demonstramos que o LAP supera outras arquiteturas de fusão superficial no alinhamento texto-imagem para geração e na transferência fiel de informações visuais do VLM para o modelo de difusão, o que é crucial para edição. Propomos a Injeção de Reescrevimento Habilitada por VLM com Inferência Flexível (VERIFI), que condiciona um transformador de difusão (DiT) apenas nos tokens de texto gerados pelo VLM durante a reescrita de prompts no modelo. O VERIFI combina o alinhamento da distribuição de condicionamento com as capacidades de raciocínio do VLM para aumentar as capacidades e a flexibilidade na inferência. Além disso, o ajuste fino em tarefas de edição não apenas melhora o alinhamento texto-imagem para geração, indicativo de transferência de conhecimento entre modalidades, mas também exibe capacidades de generalização impressionantes. Nosso modelo, quando treinado para edição de uma única imagem, generaliza de forma zero-shot para múltiplas referências de imagem, reforçando ainda mais o design de codificador unificado do UniFusion.
English
Although recent advances in visual generation have been remarkable, most
existing architectures still depend on distinct encoders for images and text.
This separation constrains diffusion models' ability to perform cross-modal
reasoning and knowledge transfer. Prior attempts to bridge this gap often use
the last layer information from VLM, employ multiple visual encoders, or train
large unified models jointly for text and image generation, which demands
substantial computational resources and large-scale data, limiting its
accessibility.We present UniFusion, a diffusion-based generative model
conditioned on a frozen large vision-language model (VLM) that serves as a
unified multimodal encoder. At the core of UniFusion is the Layerwise Attention
Pooling (LAP) mechanism that extracts both high level semantics and low level
details from text and visual tokens of a frozen VLM to condition a diffusion
generative model. We demonstrate that LAP outperforms other shallow fusion
architectures on text-image alignment for generation and faithful transfer of
visual information from VLM to the diffusion model which is key for editing. We
propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI),
which conditions a diffusion transformer (DiT) only on the text tokens
generated by the VLM during in-model prompt rewriting. VERIFI combines the
alignment of the conditioning distribution with the VLM's reasoning
capabilities for increased capabilities and flexibility at inference. In
addition, finetuning on editing task not only improves text-image alignment for
generation, indicative of cross-modality knowledge transfer, but also exhibits
tremendous generalization capabilities. Our model when trained on single image
editing, zero-shot generalizes to multiple image references further motivating
the unified encoder design of UniFusion.