DraCo: Bozza come CoT per l'Anteprima Text-to-Image e la Generazione di Concetti Rari
DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
December 4, 2025
Autori: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI
Abstract
I recenti modelli linguistici multimodali unificati (MLLM) hanno dimostrato capacità impressionanti, incorporando il ragionamento a catena del pensiero (CoT) per una generazione testo-immagine potenziata. Tuttavia, gli approcci esistenti rimangono limitati, trattando il modello semplicemente come un generatore autonomo o facendo affidamento su una pianificazione testuale astratta. A tal fine, proponiamo Draft-as-CoT (DraCo), un nuovo paradigma di ragionamento intervallato che sfrutta appieno sia i contenuti testuali che visivi nel CoT per una migliore pianificazione e verifica. Il nostro metodo genera prima un'immagine bozza a bassa risoluzione come anteprima, fornendo una pianificazione e una guida visiva più concrete e strutturate. Successivamente, impieghiamo la capacità di comprensione intrinseca del modello per verificare potenziali disallineamenti semantici tra la bozza e il prompt di input, ed eseguiamo un affinamento attraverso correzioni selettive con super-risoluzione. In questo modo, il nostro approccio affronta due sfide fondamentali: la natura granulare grossolana della pianificazione testuale e la difficoltà nel generare combinazioni di attributi rari. Per supportare l'addestramento, abbiamo curato DraCo-240K, con l'obiettivo di potenziare tre capacità atomiche che abbracciano la correzione generale, la manipolazione di istanze e la riorganizzazione del layout. Supportato da DraCo-CFG, una strategia specializzata di classifier-free guidance (CFG) per il ragionamento intervallato, DraCo raggiunge un aumento enorme su GenEval (+8%), Imagine-Bench (+0.91) e GenEval++ (+3%), superando significativamente la generazione diretta e altri metodi di generazione potenziati dal CoT.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.