Allineamento delle Rappresentazioni Multimodali per la Generazione di Immagini: Il Controllo Intervallato Testo-Immagine è Più Semplice di Quanto Si Creda
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
Autori: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
Abstract
Il campo della generazione avanzata di immagini da testo sta assistendo all'emergere di framework unificati che integrano potenti encoder di testo, come CLIP e T5, con architetture basate su Diffusion Transformer. Nonostante ci siano stati tentativi di controllare le immagini generate attraverso condizioni aggiuntive, come mappe canny e di profondità, manca ancora un framework completo per il controllo intervallato arbitrario tra testo e immagine. Questa lacuna è particolarmente evidente quando si tenta di fondere concetti o elementi visivi provenienti da più immagini durante il processo di generazione. Per colmare questa lacuna, abbiamo condotto esperimenti preliminari che dimostrano come i modelli multimodali di grandi dimensioni (LMMs) offrano uno spazio di rappresentazione condiviso efficace, in cui immagine e testo possono essere allineati per fungere da condizione per modelli di diffusione esterni. Sulla base di questa scoperta, proponiamo Dream Engine, un framework efficiente e unificato progettato per il controllo intervallato arbitrario tra testo e immagine nei modelli di generazione di immagini. Basandoci su potenti modelli di testo-immagine come SD3.5, sostituiamo gli encoder di testo originali incorporando encoder di informazioni multimodali versatili come QwenVL. Il nostro approccio utilizza un paradigma di addestramento in due fasi, costituito dall'allineamento congiunto testo-immagine e dalla messa a punto delle istruzioni intervallate multimodali. I nostri esperimenti dimostrano che questo metodo di addestramento è efficace, raggiungendo un punteggio complessivo di 0.69 sul benchmark GenEval e eguagliando le prestazioni di modelli all'avanguardia come SD3.5 e FLUX.
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary