DraCo: Entwurf als CoT für Text-zu-Bild-Vorschau und Generierung seltener Konzepte
DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
December 4, 2025
papers.authors: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI
papers.abstract
Kürzlich entwickelte einheitliche multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten gezeigt, indem sie Chain-of-Thought (CoT)-Reasoning für eine verbesserte Text-zu-Bild-Generierung integrieren. Bestehende Ansätze sind jedoch nach wie vor begrenzt; sie behandeln das Modell entweder lediglich als eigenständigen Generator oder stützen sich auf abstrakte textuelle Planung. Zu diesem Zweck schlagen wir Draft-as-CoT (DraCo) vor, ein neuartiges, verschachteltes Reasoning-Paradigma, das sowohl textuelle als auch visuelle Inhalte im CoT vollständig nutzt, um eine bessere Planung und Verifikation zu ermöglichen. Unsere Methode generiert zunächst ein niedrig aufgelöstes Entwurfsbild als Vorschau, das eine konkretere und strukturellere visuelle Planung und Anleitung bietet. Anschließend nutzen wir das inhärente Verständnisvermögen des Modells, um potenzielle semantische Fehlausrichtungen zwischen dem Entwurf und dem Eingabe-Prompt zu verifizieren, und führt eine Verfeinerung durch selektive Korrekturen mit Super-Resolution durch. Auf diese Weise adressiert unser Ansatz zwei grundlegende Herausforderungen: die grobgranulare Natur textueller Planung und die Schwierigkeit, seltene Attributkombinationen zu generieren. Zur Unterstützung des Trainings haben wir DraCo-240K zusammengestellt, das darauf abzielt, drei atomare Fähigkeiten zu verbessern: allgemeine Korrektur, Instanzenmanipulation und Layout-Reorganisation. Unterstützt durch DraCo-CFG, eine spezielle Classifier-Free Guidance (CFG)-Strategie für verschachteltes Reasoning, erzielt DraCo einen erheblichen Anstieg bei GenEval (+8%), Imagine-Bench (+0,91) und GenEval++ (+3%) und übertrifft damit die direkte Generierung und andere durch CoT unterstützte Generierungsmethoden signifikant.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.