ChatPaper.aiChatPaper

DraCo: テキストから画像へのプレビューと希少概念生成のためのCoTとしての下書き

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

December 4, 2025
著者: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI

要旨

近年の統一マルチモーダル大規模言語モデル(MLLM)は、思考連鎖(CoT)推論を組み込むことで、テキストから画像への生成能力が著しく向上しています。しかし、既存の手法は、モデルを単体の生成器として扱うか、抽象的なテキスト計画に依存するなど、限界があります。そこで本研究では、CoTにおいてテキストと視覚コンテンツの両方を十分に活用し、より優れた計画と検証を実現する新しいインタリーブ型推論パラダイム「Draft-as-CoT(DraCo)」を提案します。本手法はまず、低解像度の下書き画像をプレビューとして生成し、より具体的で構造的な視覚的計画とガイダンスを提供します。次に、モデルが本来持つ理解能力を活用して、下書き画像と入力プロンプト間の潜在的意味的不整合を検証し、超解像による選択的修正を通じて洗練化を行います。このアプローチにより、テキスト計画の粗粒度性と、稀な属性の組み合わせ生成の困難さという二つの根本的課題に対処します。学習を支援するため、一般的な修正、インスタンス操作、レイアウト再編成という3つの原子的能力を強化することを目的としたデータセットDraCo-240Kを構築しました。インタリーブ型推論のための専用Classifier-Free Guidance(CFG)戦略であるDraCo-CFGにより支援され、DraCoはGenEval(+8%)、Imagine-Bench(+0.91)、GenEval++(+3%)で大幅な向上を達成し、直接生成や他のCoTを活用した生成手法を大きく上回りました。
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.
PDF81December 6, 2025