Allineamento delle Rappresentazioni Multimodali per la Generazione di Immagini: Il Controllo Intervallato Testo-Immagine è Più Semplice di Quanto Si Creda

Abstract

Il campo della generazione avanzata di immagini da testo sta assistendo all'emergere di framework unificati che integrano potenti encoder di testo, come CLIP e T5, con architetture basate su Diffusion Transformer. Nonostante ci siano stati tentativi di controllare le immagini generate attraverso condizioni aggiuntive, come mappe canny e di profondità, manca ancora un framework completo per il controllo intervallato arbitrario tra testo e immagine. Questa lacuna è particolarmente evidente quando si tenta di fondere concetti o elementi visivi provenienti da più immagini durante il processo di generazione. Per colmare questa lacuna, abbiamo condotto esperimenti preliminari che dimostrano come i modelli multimodali di grandi dimensioni (LMMs) offrano uno spazio di rappresentazione condiviso efficace, in cui immagine e testo possono essere allineati per fungere da condizione per modelli di diffusione esterni. Sulla base di questa scoperta, proponiamo Dream Engine, un framework efficiente e unificato progettato per il controllo intervallato arbitrario tra testo e immagine nei modelli di generazione di immagini. Basandoci su potenti modelli di testo-immagine come SD3.5, sostituiamo gli encoder di testo originali incorporando encoder di informazioni multimodali versatili come QwenVL. Il nostro approccio utilizza un paradigma di addestramento in due fasi, costituito dall'allineamento congiunto testo-immagine e dalla messa a punto delle istruzioni intervallate multimodali. I nostri esperimenti dimostrano che questo metodo di addestramento è efficace, raggiungendo un punteggio complessivo di 0.69 sul benchmark GenEval e eguagliando le prestazioni di modelli all'avanguardia come SD3.5 e FLUX.

English

The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.

Allineamento delle Rappresentazioni Multimodali per la Generazione di Immagini: Il Controllo Intervallato Testo-Immagine è Più Semplice di Quanto Si Creda

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

Abstract

Support