UniFusion: Vision-Taalmodel als Uniforme Encoder in Beeldgeneratie
UniFusion: Vision-Language Model as Unified Encoder in Image Generation
October 14, 2025
Auteurs: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI
Samenvatting
Hoewel recente vooruitgang in visuele generatie opmerkelijk is geweest, zijn de meeste bestaande architecturen nog steeds afhankelijk van afzonderlijke encoders voor afbeeldingen en tekst. Deze scheiding beperkt het vermogen van diffusiemodellen om cross-modale redenering en kennisoverdracht uit te voeren. Eerdere pogingen om deze kloof te overbruggen, maken vaak gebruik van informatie uit de laatste laag van een VLM, gebruiken meerdere visuele encoders, of trainen grote geünificeerde modellen gezamenlijk voor tekst- en beeldgeneratie, wat aanzienlijke rekenkracht en grootschalige data vereist, wat de toegankelijkheid beperkt. Wij presenteren UniFusion, een diffusiegebaseerd generatief model dat wordt geconditioneerd op een bevroren groot vision-language model (VLM) dat fungeert als een geünificeerde multimodale encoder. De kern van UniFusion is het Layerwise Attention Pooling (LAP)-mechanisme dat zowel hoogwaardige semantiek als laagniveau details extraheert uit tekst- en visuele tokens van een bevroren VLM om een diffusiegeneratief model te conditioneren. We tonen aan dat LAP andere ondiepe fusie-architecturen overtreft op het gebied van tekst-beelduitlijning voor generatie en getrouwe overdracht van visuele informatie van de VLM naar het diffusiemodel, wat essentieel is voor bewerkingen. We introduceren VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), dat een diffusietransformer (DiT) alleen conditioneert op de teksttokens die door de VLM worden gegenereerd tijdens in-model prompt herschrijven. VERIFI combineert de uitlijning van de conditioneringdistributie met de redeneercapaciteiten van de VLM voor verhoogde mogelijkheden en flexibiliteit tijdens inferentie. Daarnaast verbetert finetunen op bewerkingstaken niet alleen de tekst-beelduitlijning voor generatie, wat wijst op cross-modale kennisoverdracht, maar vertoont het ook enorme generalisatiecapaciteiten. Ons model, wanneer getraind op het bewerken van één afbeelding, generaliseert zero-shot naar meerdere afbeeldingsreferenties, wat het geünificeerde encoderontwerp van UniFusion verder motiveert.
English
Although recent advances in visual generation have been remarkable, most
existing architectures still depend on distinct encoders for images and text.
This separation constrains diffusion models' ability to perform cross-modal
reasoning and knowledge transfer. Prior attempts to bridge this gap often use
the last layer information from VLM, employ multiple visual encoders, or train
large unified models jointly for text and image generation, which demands
substantial computational resources and large-scale data, limiting its
accessibility.We present UniFusion, a diffusion-based generative model
conditioned on a frozen large vision-language model (VLM) that serves as a
unified multimodal encoder. At the core of UniFusion is the Layerwise Attention
Pooling (LAP) mechanism that extracts both high level semantics and low level
details from text and visual tokens of a frozen VLM to condition a diffusion
generative model. We demonstrate that LAP outperforms other shallow fusion
architectures on text-image alignment for generation and faithful transfer of
visual information from VLM to the diffusion model which is key for editing. We
propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI),
which conditions a diffusion transformer (DiT) only on the text tokens
generated by the VLM during in-model prompt rewriting. VERIFI combines the
alignment of the conditioning distribution with the VLM's reasoning
capabilities for increased capabilities and flexibility at inference. In
addition, finetuning on editing task not only improves text-image alignment for
generation, indicative of cross-modality knowledge transfer, but also exhibits
tremendous generalization capabilities. Our model when trained on single image
editing, zero-shot generalizes to multiple image references further motivating
the unified encoder design of UniFusion.