ChatPaper.aiChatPaper

DraCo: Conceptueel Ontwerp als Ketendenken voor Tekst-naar-Beeld Voorvertoning en Zeldzaam Concept Genereren

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

December 4, 2025
Auteurs: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI

Samenvatting

Recente geünificeerde multimodale grote taalmodellen (MLLM's) hebben indrukwekkende capaciteiten getoond door ketendenkredenering (CoT) te incorporeren voor verbeterde tekst-naar-beeldgeneratie. Bestaande benaderingen blijven echter beperkt, waarbij het model ofwel slechts als een op zichzelf staande generator wordt behandeld, of wordt vertrouwd op abstracte tekstuele planning. Daartoe stellen we Draft-as-CoT (DraCo) voor, een nieuw interleaved redeneerparadigma dat zowel tekstuele als visuele inhoud in CoT volledig benut voor betere planning en verificatie. Onze methode genereert eerst een laagresolutie conceptbeeld als voorvertoning, wat meer concrete en structurele visuele planning en begeleiding biedt. Vervolgens gebruiken we het inherente begripsvermogen van het model om potentiële semantische misaligneringen tussen het concept en de invoerprompt te verifiëren, en verfijning uit te voeren via selectieve correcties met superresolutie. Op deze manier adresseert onze aanpak twee fundamentele uitdagingen: de grove korreligheid van tekstuele planning en de moeilijkheid bij het genereren van zeldzame attribuutcombinaties. Om de training te ondersteunen, hebben we DraCo-240K samengesteld, met als doel drie atomische capaciteiten te verbeteren: algemene correctie, instantiemanipulatie en lay-outreorganisatie. Ondersteund door DraCo-CFG, een gespecialiseerde classifier-free guidance (CFG)-strategie voor interleaved redeneren, behaalt DraCo een aanzienlijke verbetering op GenEval (+8%), Imagine-Bench (+0.91) en GenEval++ (+3%), en presteert daarmee significant beter dan directe generatie en andere generatiemethoden die door CoT zijn versterkt.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.
PDF112December 21, 2025