Multimodale Repräsentationsausrichtung für die Bildgenerierung: Text-Bild-Interleaved-Steuerung ist einfacher als gedacht
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
Autoren: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
Zusammenfassung
Das Feld der fortschrittlichen Text-zu-Bild-Generierung erlebt derzeit die Entstehung einheitlicher Frameworks, die leistungsstarke Text-Encoder wie CLIP und T5 mit Diffusion Transformer-Backbones integrieren. Obwohl es Bemühungen gab, Ausgabebilder mit zusätzlichen Bedingungen wie Canny- und Tiefenkarten zu steuern, fehlt noch ein umfassendes Framework für beliebige Text-Bild-verflochtene Steuerung. Diese Lücke wird besonders deutlich, wenn versucht wird, Konzepte oder visuelle Elemente aus mehreren Bildern im Generierungsprozess zu kombinieren. Um diese Lücke zu schließen, haben wir vorläufige Experimente durchgeführt, die zeigen, dass große multimodale Modelle (LMMs) einen effektiven gemeinsamen Repräsentationsraum bieten, in dem Bild und Text gut ausgerichtet werden können, um als Bedingung für externe Diffusionsmodelle zu dienen. Basierend auf dieser Erkenntnis schlagen wir Dream Engine vor, ein effizientes und einheitliches Framework, das für beliebige Text-Bild-verflochtene Steuerung in Bildgenerierungsmodellen entwickelt wurde. Aufbauend auf leistungsstarken Text-zu-Bild-Modellen wie SD3.5 ersetzen wir die ursprünglichen reinen Text-Encoder durch die Einbindung vielseitiger multimodaler Informations-Encoder wie QwenVL. Unser Ansatz nutzt ein zweistufiges Trainingsparadigma, bestehend aus gemeinsamer Text-Bild-Ausrichtung und multimodaler verflochtener Instruktionsfeinabstimmung. Unsere Experimente zeigen, dass diese Trainingsmethode effektiv ist und eine Gesamtpunktzahl von 0,69 auf dem GenEval-Benchmark erreicht, was der Leistung von state-of-the-art Text-zu-Bild-Modellen wie SD3.5 und FLUX entspricht.
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary