Denk in Streken, Niet in Pixels: Procesgestuurde Beeldgeneratie via Doordachte Stapsgewijze Opbouw
Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning
April 8, 2026
Auteurs: Lei Zhang, Junjiao Tian, Zhipeng Fan, Kunpeng Li, Jialiang Wang, Weifeng Chen, Markos Georgopoulos, Felix Juefei-Xu, Yuxiang Bao, Julian McAuley, Manling Li, Zecheng He
cs.AI
Samenvatting
Mensen schilderen afbeeldingen incrementeel: ze plannen een globale lay-out, schetsen een grove opzet, inspecteren en verfijnen details, en cruciaal is dat elke stap verankerd is in de evoluerende visuele toestanden. Maar kunnen uniforme multimodale modellen, getraind op door elkaar gevlochten tekst-beelddatasets, ook de keten van tussenliggende toestanden verbeelden? In dit artikel introduceren we procesgestuurde beeldgeneratie, een paradigmavoor meerdere stappen dat de synthese ontleedt in een door elkaar gevlochten redeneertraject van gedachten en handelingen. In plaats van beelden in één stap te genereren, ontvouwt onze aanpak zich over meerdere iteraties, elk bestaande uit 4 fasen: tekstuele planning, visuele schets, tekstuele reflectie en visuele verfijning. De tekstuele redenering conditioneert expliciet hoe de visuele toestand zou moeten evolueren, terwijl het gegenereerde visuele tussenproduct op zijn beurt de volgende ronde van tekstuele redenering begrenst en verankert. Een kernuitdaging van procesgestuurde generatie vloeit voort uit de ambiguïteit van tussenliggende toestanden: hoe kunnen modellen elk gedeeltelijk voltooid beeld evalueren? Wij pakken dit aan door middel van gedetailleerde, stapsgewijze supervisie die twee complementaire beperkingen handhaaft: voor de visuele tussenliggende toestanden handhaven we de ruimtelijke en semantische consistentie; voor de tekstuele tussenliggende toestanden behouden we de eerdere visuele kennis terwijl we het model in staat stellen prompt-schendende elementen te identificeren en te corrigeren. Dit maakt het generatieproces expliciet, interpreteerbaar en direct superviseerbaar. Om de voorgestelde methode te valideren, voeren we experimenten uit binnen diverse benchmarks voor tekst-naar-beeldgeneratie.
English
Humans paint images incrementally: they plan a global layout, sketch a coarse draft, inspect, and refine details, and most importantly, each step is grounded in the evolving visual states. However, can unified multimodal models trained on text-image interleaved datasets also imagine the chain of intermediate states? In this paper, we introduce process-driven image generation, a multi-step paradigm that decomposes synthesis into an interleaved reasoning trajectory of thoughts and actions. Rather than generating images in a single step, our approach unfolds across multiple iterations, each consisting of 4 stages: textual planning, visual drafting, textual reflection, and visual refinement. The textual reasoning explicitly conditions how the visual state should evolve, while the generated visual intermediate in turn constrains and grounds the next round of textual reasoning. A core challenge of process-driven generation stems from the ambiguity of intermediate states: how can models evaluate each partially-complete image? We address this through dense, step-wise supervision that maintains two complementary constraints: for the visual intermediate states, we enforce the spatial and semantic consistency; for the textual intermediate states, we preserve the prior visual knowledge while enabling the model to identify and correct prompt-violating elements. This makes the generation process explicit, interpretable, and directly supervisable. To validate proposed method, we conduct experiments under various text-to-image generation benchmarks.