ChatPaper.aiChatPaper

UniFusion : Modèle vision-langage comme encodeur unifié dans la génération d'images

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

October 14, 2025
papers.authors: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI

papers.abstract

Bien que les progrès récents en génération visuelle soient remarquables, la plupart des architectures existantes dépendent encore d'encodeurs distincts pour les images et le texte. Cette séparation limite la capacité des modèles de diffusion à effectuer un raisonnement et un transfert de connaissances intermodaux. Les tentatives précédentes pour combler cet écart utilisent souvent les informations de la dernière couche d'un modèle de vision et langage (VLM), emploient plusieurs encodeurs visuels, ou entraînent conjointement de grands modèles unifiés pour la génération de texte et d'images, ce qui exige des ressources computationnelles substantielles et des données à grande échelle, limitant ainsi leur accessibilité. Nous présentons UniFusion, un modèle génératif basé sur la diffusion conditionné par un grand modèle de vision et langage (VLM) figé, qui sert d'encodeur multimodal unifié. Au cœur d'UniFusion se trouve le mécanisme de Pooling d'Attention par Couches (LAP), qui extrait à la fois des sémantiques de haut niveau et des détails de bas niveau à partir des tokens textuels et visuels d'un VLM figé pour conditionner un modèle génératif de diffusion. Nous démontrons que LAP surpasse d'autres architectures de fusion superficielle en termes d'alignement texte-image pour la génération et de transfert fidèle d'informations visuelles du VLM au modèle de diffusion, ce qui est essentiel pour l'édition. Nous proposons l'Injection de Réécriture Activée par VLM avec Inférence Flexible (VERIFI), qui conditionne un transformeur de diffusion (DiT) uniquement sur les tokens textuels générés par le VLM lors de la réécriture de l'invite dans le modèle. VERIFI combine l'alignement de la distribution de conditionnement avec les capacités de raisonnement du VLM pour une augmentation des capacités et une flexibilité accrue lors de l'inférence. De plus, le fine-tuning sur une tâche d'édition améliore non seulement l'alignement texte-image pour la génération, indiquant un transfert de connaissances intermodales, mais montre également des capacités de généralisation impressionnantes. Notre modèle, lorsqu'il est entraîné sur l'édition d'une seule image, généralise de manière zero-shot à plusieurs références d'images, ce qui motive davantage la conception d'un encodeur unifié pour UniFusion.
English
Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
PDF153October 15, 2025