ChatPaper.aiChatPaper

ストローク単位で思考する、ピクセル単位ではない:推論を織り交ぜたプロセス駆動型画像生成

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

April 8, 2026
著者: Lei Zhang, Junjiao Tian, Zhipeng Fan, Kunpeng Li, Jialiang Wang, Weifeng Chen, Markos Georgopoulos, Felix Juefei-Xu, Yuxiang Bao, Julian McAuley, Manling Li, Zecheng He
cs.AI

要旨

人間は画像を段階的に描画する:まず大まかなレイアウトを計画し、粗い下書きを描き、詳細を確認・修正する。最も重要なのは、各工程が進行中の視覚的状態に基づいて行われる点である。しかし、テキストと画像が交互に配置されたデータセットで学習された統合マルチモーダルモデルは、中間状態の連鎖を想像できるだろうか?本論文では、合成プロセスを思考と行動が交互に連なる推論軌跡へと分解する、多段階のパラダイムである「プロセス駆動型画像生成」を提案する。単一ステップで画像を生成するのではなく、本手法は複数の反復処理によって展開され、各反復は「テキスト計画」「視覚的草案作成」「テキスト反省」「視覚的洗練」の4段階で構成される。テキストによる推論は視覚状態がどう進化すべきかを明示的に条件付けし、生成された視覚的中间表現は、次のテキスト推論を拘束し接地する。プロセス駆動型生成の核心的課題は、中間状態の曖昧性に起因する:部分完成画像をモデルはどう評価すべきか?我々はこれを、密なステップ単位の教師信号によって解決する。これは二つの相補的制約を維持する:視覚的中间状態に対しては空間的・意味的一貫性を強制し、テキスト的中间状態に対しては、既存の視覚的知識を保持しつつ、プロンプトに違反する要素を特定・修正できるようにする。これにより、生成プロセスは明示的、解釈可能、かつ直接監督可能となる。提案手法を検証するため、様々なテキストから画像への生成ベンチマークで実験を実施した。
English
Humans paint images incrementally: they plan a global layout, sketch a coarse draft, inspect, and refine details, and most importantly, each step is grounded in the evolving visual states. However, can unified multimodal models trained on text-image interleaved datasets also imagine the chain of intermediate states? In this paper, we introduce process-driven image generation, a multi-step paradigm that decomposes synthesis into an interleaved reasoning trajectory of thoughts and actions. Rather than generating images in a single step, our approach unfolds across multiple iterations, each consisting of 4 stages: textual planning, visual drafting, textual reflection, and visual refinement. The textual reasoning explicitly conditions how the visual state should evolve, while the generated visual intermediate in turn constrains and grounds the next round of textual reasoning. A core challenge of process-driven generation stems from the ambiguity of intermediate states: how can models evaluate each partially-complete image? We address this through dense, step-wise supervision that maintains two complementary constraints: for the visual intermediate states, we enforce the spatial and semantic consistency; for the textual intermediate states, we preserve the prior visual knowledge while enabling the model to identify and correct prompt-violating elements. This makes the generation process explicit, interpretable, and directly supervisable. To validate proposed method, we conduct experiments under various text-to-image generation benchmarks.
PDF452April 10, 2026