Denken in Strichen, nicht in Pixeln: Prozessgesteuerte Bildgenerierung durch verschachteltes Schließen

Zusammenfassung

Menschen malen Bilder schrittweise: Sie planen ein globales Layout, skizzieren einen groben Entwurf, überprüfen und verfeinern Details, und was am wichtigsten ist, jeder Schritt basiert auf den sich entwickelnden visuellen Zuständen. Doch können vereinheitlichte multimodale Modelle, die auf textbild-verschränkten Datensätzen trainiert wurden, ebenfalls die Kette der Zwischenzustände imaginieren? In diesem Artikel stellen wir prozessgesteuerte Bildgenerierung vor, ein mehrstufiges Paradigma, das die Synthese in eine verschränkte Reasoning-Trajektorie aus Gedanken und Aktionen zerlegt. Anstatt Bilder in einem einzigen Schritt zu generieren, entfaltet sich unser Ansatz über mehrere Iterationen, die jeweils aus 4 Phasen bestehen: textuelle Planung, visueller Entwurf, textuelle Reflexion und visuelle Verfeinerung. Das textuelle Reasoning legt explizit fest, wie sich der visuelle Zustand entwickeln soll, während das generierte visuelle Zwischenergebnis wiederum das nächste textuelle Reasoning einschränkt und verankert. Eine zentrale Herausforderung der prozessgesteuerten Generierung ergibt sich aus der Mehrdeutigkeit von Zwischenzuständen: Wie können Modelle jedes teilweise vollständige Bild bewerten? Wir adressieren dies durch dichte, schrittweise Überwachung, die zwei komplementäre Zwänge aufrechterhält: Für die visuellen Zwischenzustände erzwingen wir die räumliche und semantische Konsistenz; für die textuellen Zwischenzustände bewahren wir das vorherige visuelle Wissen, während wir dem Modell ermöglichen, promptverletzende Elemente zu identifizieren und zu korrigieren. Dies macht den Generierungsprozess explizit, interpretierbar und direkt überwachbar. Um die vorgeschlagene Methode zu validieren, führen wir Experimente unter verschiedenen Text-zu-Bild-Generierungs-Benchmarks durch.

English

Humans paint images incrementally: they plan a global layout, sketch a coarse draft, inspect, and refine details, and most importantly, each step is grounded in the evolving visual states. However, can unified multimodal models trained on text-image interleaved datasets also imagine the chain of intermediate states? In this paper, we introduce process-driven image generation, a multi-step paradigm that decomposes synthesis into an interleaved reasoning trajectory of thoughts and actions. Rather than generating images in a single step, our approach unfolds across multiple iterations, each consisting of 4 stages: textual planning, visual drafting, textual reflection, and visual refinement. The textual reasoning explicitly conditions how the visual state should evolve, while the generated visual intermediate in turn constrains and grounds the next round of textual reasoning. A core challenge of process-driven generation stems from the ambiguity of intermediate states: how can models evaluate each partially-complete image? We address this through dense, step-wise supervision that maintains two complementary constraints: for the visual intermediate states, we enforce the spatial and semantic consistency; for the textual intermediate states, we preserve the prior visual knowledge while enabling the model to identify and correct prompt-violating elements. This makes the generation process explicit, interpretable, and directly supervisable. To validate proposed method, we conduct experiments under various text-to-image generation benchmarks.

Denken in Strichen, nicht in Pixeln: Prozessgesteuerte Bildgenerierung durch verschachteltes Schließen

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

Zusammenfassung

Support