Multimodale Representatie-uitlijning voor Beeldgeneratie: Tekst-Beeld Geïnterlinieerde Controle Is Makkelijker Dan Je Denkt
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
Auteurs: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
Samenvatting
Het domein van geavanceerde tekst-naar-afbeelding generatie ziet de opkomst van geïntegreerde frameworks die krachtige tekstencoders, zoals CLIP en T5, combineren met Diffusion Transformer backbones. Hoewel er inspanningen zijn geweest om uitvoerafbeeldingen te controleren met aanvullende voorwaarden, zoals canny en dieptekaart, ontbreekt nog steeds een allesomvattend framework voor willekeurige tekst-afbeelding interleaved controle. Dit hiaat is vooral duidelijk wanneer geprobeerd wordt concepten of visuele elementen van meerdere afbeeldingen samen te voegen in het generatieproces. Om dit hiaat te verkleinen, hebben we voorlopige experimenten uitgevoerd waaruit blijkt dat grote multimodale modellen (LMM's) een effectieve gedeelde representatieruimte bieden, waar afbeelding en tekst goed uitgelijnd kunnen worden om te dienen als voorwaarde voor externe diffusion modellen. Op basis van deze ontdekking stellen we Dream Engine voor, een efficiënt en geïntegreerd framework ontworpen voor willekeurige tekst-afbeelding interleaved controle in afbeeldingsgeneratiemodellen. Voortbouwend op krachtige tekst-naar-afbeelding modellen zoals SD3.5, vervangen we de originele alleen-tekst encoders door het opnemen van veelzijdige multimodale informatie encoders zoals QwenVL. Onze aanpak maakt gebruik van een tweefasen trainingsparadigma, bestaande uit gezamenlijke tekst-afbeelding uitlijning en multimodale interleaved instructieafstemming. Onze experimenten tonen aan dat deze trainingsmethode effectief is, met een algehele score van 0.69 op de GenEval benchmark, en overeenkomt met de prestaties van state-of-the-art tekst-naar-afbeelding modellen zoals SD3.5 en FLUX.
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary