Pensa a Tratti, Non a Pixel: Generazione di Immagini Guidata dal Processo Tramite Ragionamento Intervallato

Abstract

Gli esseri umani dipingono le immagini in modo incrementale: pianificano una disposizione globale, abbozzano una bozza approssimativa, ispezionano e rifiniscono i dettagli e, cosa più importante, ogni fase è ancorata agli stati visivi in evoluzione. Tuttavia, i modelli multimodali unificati addestrati su dataset intervallati da testo e immagini possono anch'essi immaginare la catena di stati intermedi? In questo articolo, introduciamo la generazione di immagini guidata dal processo, un paradigma multi-step che scompone la sintesi in una traiettoria di ragionamento intervallata da pensieri e azioni. Invece di generare immagini in un singolo passaggio, il nostro approccio si svolge attraverso più iterazioni, ciascuna composta da 4 fasi: pianificazione testuale, abbozzo visivo, riflessione testuale e rifinitura visiva. Il ragionamento testuale condiziona esplicitamente come dovrebbe evolversi lo stato visivo, mentre l’intermedio visivo generato vincola e ancorava a sua volta il successivo ragionamento testuale. Una sfida fondamentale della generazione guidata dal processo deriva dall'ambiguità degli stati intermedi: come possono i modelli valutare ogni immagine parzialmente completa? Affrontiamo questo problema attraverso una supervisione densa e step-by-step che mantiene due vincoli complementari: per gli stati visivi intermedi, imponiamo la coerenza spaziale e semantica; per gli stati testuali intermedi, preserviamo la conoscenza visiva precedente consentendo al modello di identificare e correggere gli elementi che violano il prompt. Ciò rende il processo di generazione esplicito, interpretabile e direttamente supervisionabile. Per validare il metodo proposto, conduciamo esperimenti su vari benchmark di generazione di immagini da testo.

English

Humans paint images incrementally: they plan a global layout, sketch a coarse draft, inspect, and refine details, and most importantly, each step is grounded in the evolving visual states. However, can unified multimodal models trained on text-image interleaved datasets also imagine the chain of intermediate states? In this paper, we introduce process-driven image generation, a multi-step paradigm that decomposes synthesis into an interleaved reasoning trajectory of thoughts and actions. Rather than generating images in a single step, our approach unfolds across multiple iterations, each consisting of 4 stages: textual planning, visual drafting, textual reflection, and visual refinement. The textual reasoning explicitly conditions how the visual state should evolve, while the generated visual intermediate in turn constrains and grounds the next round of textual reasoning. A core challenge of process-driven generation stems from the ambiguity of intermediate states: how can models evaluate each partially-complete image? We address this through dense, step-wise supervision that maintains two complementary constraints: for the visual intermediate states, we enforce the spatial and semantic consistency; for the textual intermediate states, we preserve the prior visual knowledge while enabling the model to identify and correct prompt-violating elements. This makes the generation process explicit, interpretable, and directly supervisable. To validate proposed method, we conduct experiments under various text-to-image generation benchmarks.

Pensa a Tratti, Non a Pixel: Generazione di Immagini Guidata dal Processo Tramite Ragionamento Intervallato

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

Abstract

Support