UniFusion: Modello Visione-Linguaggio come Codificatore Unificato nella Generazione di Immagini
UniFusion: Vision-Language Model as Unified Encoder in Image Generation
October 14, 2025
Autori: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI
Abstract
Sebbene i recenti progressi nella generazione visiva siano stati notevoli, la maggior parte delle architetture esistenti dipende ancora da encoder distinti per immagini e testo. Questa separazione limita la capacità dei modelli di diffusione di eseguire ragionamenti cross-modali e trasferimento di conoscenza. I precedenti tentativi di colmare questa lacuna spesso utilizzano le informazioni dell'ultimo strato di un VLM (Vision-Language Model), impiegano molteplici encoder visivi o addestrano grandi modelli unificati congiuntamente per la generazione di testo e immagini, il che richiede risorse computazionali sostanziali e dati su larga scala, limitandone l'accessibilità. Presentiamo UniFusion, un modello generativo basato sulla diffusione condizionato da un VLM di grandi dimensioni congelato che funge da encoder multimodale unificato. Al centro di UniFusion vi è il meccanismo di Layerwise Attention Pooling (LAP), che estrae sia la semantica di alto livello che i dettagli di basso livello dai token testuali e visivi di un VLM congelato per condizionare un modello generativo di diffusione. Dimostriamo che LAP supera altre architetture di fusione superficiale nell'allineamento testo-immagine per la generazione e nel trasferimento fedele delle informazioni visive dal VLM al modello di diffusione, fondamentale per l'editing. Proponiamo VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), che condiziona un trasformatore di diffusione (DiT) solo sui token testuali generati dal VLM durante la riscrittura del prompt all'interno del modello. VERIFI combina l'allineamento della distribuzione di condizionamento con le capacità di ragionamento del VLM per aumentare le capacità e la flessibilità durante l'inferenza. Inoltre, il fine-tuning sul task di editing non solo migliora l'allineamento testo-immagine per la generazione, indicativo di un trasferimento di conoscenza cross-modale, ma mostra anche enormi capacità di generalizzazione. Il nostro modello, quando addestrato sull'editing di una singola immagine, generalizza in modalità zero-shot a più immagini di riferimento, motivando ulteriormente il design dell'encoder unificato di UniFusion.
English
Although recent advances in visual generation have been remarkable, most
existing architectures still depend on distinct encoders for images and text.
This separation constrains diffusion models' ability to perform cross-modal
reasoning and knowledge transfer. Prior attempts to bridge this gap often use
the last layer information from VLM, employ multiple visual encoders, or train
large unified models jointly for text and image generation, which demands
substantial computational resources and large-scale data, limiting its
accessibility.We present UniFusion, a diffusion-based generative model
conditioned on a frozen large vision-language model (VLM) that serves as a
unified multimodal encoder. At the core of UniFusion is the Layerwise Attention
Pooling (LAP) mechanism that extracts both high level semantics and low level
details from text and visual tokens of a frozen VLM to condition a diffusion
generative model. We demonstrate that LAP outperforms other shallow fusion
architectures on text-image alignment for generation and faithful transfer of
visual information from VLM to the diffusion model which is key for editing. We
propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI),
which conditions a diffusion transformer (DiT) only on the text tokens
generated by the VLM during in-model prompt rewriting. VERIFI combines the
alignment of the conditioning distribution with the VLM's reasoning
capabilities for increased capabilities and flexibility at inference. In
addition, finetuning on editing task not only improves text-image alignment for
generation, indicative of cross-modality knowledge transfer, but also exhibits
tremendous generalization capabilities. Our model when trained on single image
editing, zero-shot generalizes to multiple image references further motivating
the unified encoder design of UniFusion.