ChatPaper.aiChatPaper

UniFusion: Modelo de Visión-Lenguaje como Codificador Unificado en la Generación de Imágenes

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

October 14, 2025
Autores: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI

Resumen

Aunque los avances recientes en generación visual han sido notables, la mayoría de las arquitecturas existentes aún dependen de codificadores separados para imágenes y texto. Esta separación limita la capacidad de los modelos de difusión para realizar razonamiento multimodal y transferencia de conocimiento. Intentos previos para cerrar esta brecha suelen utilizar información de la última capa de un modelo de lenguaje visual (VLM), emplear múltiples codificadores visuales o entrenar modelos unificados de gran escala conjuntamente para la generación de texto e imágenes, lo que requiere recursos computacionales sustanciales y datos a gran escala, limitando su accesibilidad. Presentamos UniFusion, un modelo generativo basado en difusión condicionado en un modelo de lenguaje visual (VLM) congelado que sirve como codificador multimodal unificado. En el núcleo de UniFusion se encuentra el mecanismo de Agrupación de Atención por Capas (LAP), que extrae tanto semántica de alto nivel como detalles de bajo nivel de los tokens de texto y visuales de un VLM congelado para condicionar un modelo generativo de difusión. Demostramos que LAP supera a otras arquitecturas de fusión superficial en la alineación texto-imagen para la generación y la transferencia fiel de información visual del VLM al modelo de difusión, lo cual es clave para la edición. Proponemos Inyección de Reescribición Habilitada por VLM con Inferencia Flexible (VERIFI), que condiciona un transformador de difusión (DiT) únicamente en los tokens de texto generados por el VLM durante la reescritura de prompts dentro del modelo. VERIFI combina la alineación de la distribución de condicionamiento con las capacidades de razonamiento del VLM para aumentar las capacidades y la flexibilidad en la inferencia. Además, el ajuste fino en tareas de edición no solo mejora la alineación texto-imagen para la generación, indicativo de transferencia de conocimiento multimodal, sino que también exhibe capacidades de generalización tremendas. Nuestro modelo, cuando se entrena en la edición de una sola imagen, generaliza de manera zero-shot a múltiples referencias de imágenes, lo que refuerza el diseño de codificador unificado de UniFusion.
English
Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
PDF153October 15, 2025