ChatPaper.aiChatPaper

UniFusion: Modello Visione-Linguaggio come Codificatore Unificato nella Generazione di Immagini

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

October 14, 2025
Autori: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI

Abstract

Sebbene i recenti progressi nella generazione visiva siano stati notevoli, la maggior parte delle architetture esistenti dipende ancora da encoder distinti per immagini e testo. Questa separazione limita la capacità dei modelli di diffusione di eseguire ragionamenti cross-modali e trasferimento di conoscenza. I precedenti tentativi di colmare questa lacuna spesso utilizzano le informazioni dell'ultimo strato di un VLM (Vision-Language Model), impiegano molteplici encoder visivi o addestrano grandi modelli unificati congiuntamente per la generazione di testo e immagini, il che richiede risorse computazionali sostanziali e dati su larga scala, limitandone l'accessibilità. Presentiamo UniFusion, un modello generativo basato sulla diffusione condizionato da un VLM di grandi dimensioni congelato che funge da encoder multimodale unificato. Al centro di UniFusion vi è il meccanismo di Layerwise Attention Pooling (LAP), che estrae sia la semantica di alto livello che i dettagli di basso livello dai token testuali e visivi di un VLM congelato per condizionare un modello generativo di diffusione. Dimostriamo che LAP supera altre architetture di fusione superficiale nell'allineamento testo-immagine per la generazione e nel trasferimento fedele delle informazioni visive dal VLM al modello di diffusione, fondamentale per l'editing. Proponiamo VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), che condiziona un trasformatore di diffusione (DiT) solo sui token testuali generati dal VLM durante la riscrittura del prompt all'interno del modello. VERIFI combina l'allineamento della distribuzione di condizionamento con le capacità di ragionamento del VLM per aumentare le capacità e la flessibilità durante l'inferenza. Inoltre, il fine-tuning sul task di editing non solo migliora l'allineamento testo-immagine per la generazione, indicativo di un trasferimento di conoscenza cross-modale, ma mostra anche enormi capacità di generalizzazione. Il nostro modello, quando addestrato sull'editing di una singola immagine, generalizza in modalità zero-shot a più immagini di riferimento, motivando ulteriormente il design dell'encoder unificato di UniFusion.
English
Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
PDF153October 15, 2025