Multimodale Repräsentationsausrichtung für die Bildgenerierung: Text-Bild-Interleaved-Steuerung ist einfacher als gedacht

papers.abstract

Das Feld der fortschrittlichen Text-zu-Bild-Generierung erlebt derzeit die Entstehung einheitlicher Frameworks, die leistungsstarke Text-Encoder wie CLIP und T5 mit Diffusion Transformer-Backbones integrieren. Obwohl es Bemühungen gab, Ausgabebilder mit zusätzlichen Bedingungen wie Canny- und Tiefenkarten zu steuern, fehlt noch ein umfassendes Framework für beliebige Text-Bild-verflochtene Steuerung. Diese Lücke wird besonders deutlich, wenn versucht wird, Konzepte oder visuelle Elemente aus mehreren Bildern im Generierungsprozess zu kombinieren. Um diese Lücke zu schließen, haben wir vorläufige Experimente durchgeführt, die zeigen, dass große multimodale Modelle (LMMs) einen effektiven gemeinsamen Repräsentationsraum bieten, in dem Bild und Text gut ausgerichtet werden können, um als Bedingung für externe Diffusionsmodelle zu dienen. Basierend auf dieser Erkenntnis schlagen wir Dream Engine vor, ein effizientes und einheitliches Framework, das für beliebige Text-Bild-verflochtene Steuerung in Bildgenerierungsmodellen entwickelt wurde. Aufbauend auf leistungsstarken Text-zu-Bild-Modellen wie SD3.5 ersetzen wir die ursprünglichen reinen Text-Encoder durch die Einbindung vielseitiger multimodaler Informations-Encoder wie QwenVL. Unser Ansatz nutzt ein zweistufiges Trainingsparadigma, bestehend aus gemeinsamer Text-Bild-Ausrichtung und multimodaler verflochtener Instruktionsfeinabstimmung. Unsere Experimente zeigen, dass diese Trainingsmethode effektiv ist und eine Gesamtpunktzahl von 0,69 auf dem GenEval-Benchmark erreicht, was der Leistung von state-of-the-art Text-zu-Bild-Modellen wie SD3.5 und FLUX entspricht.

English

The field of advanced text-to-image generation is witnessing the emergence of unified frameworks that integrate powerful text encoders, such as CLIP and T5, with Diffusion Transformer backbones. Although there have been efforts to control output images with additional conditions, like canny and depth map, a comprehensive framework for arbitrary text-image interleaved control is still lacking. This gap is especially evident when attempting to merge concepts or visual elements from multiple images in the generation process. To mitigate the gap, we conducted preliminary experiments showing that large multimodal models (LMMs) offer an effective shared representation space, where image and text can be well-aligned to serve as a condition for external diffusion models. Based on this discovery, we propose Dream Engine, an efficient and unified framework designed for arbitrary text-image interleaved control in image generation models. Building on powerful text-to-image models like SD3.5, we replace the original text-only encoders by incorporating versatile multimodal information encoders such as QwenVL. Our approach utilizes a two-stage training paradigm, consisting of joint text-image alignment and multimodal interleaved instruction tuning. Our experiments demonstrate that this training method is effective, achieving a 0.69 overall score on the GenEval benchmark, and matching the performance of state-of-the-art text-to-image models like SD3.5 and FLUX.

Multimodale Repräsentationsausrichtung für die Bildgenerierung: Text-Bild-Interleaved-Steuerung ist einfacher als gedacht

Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

papers.abstract

Support