ChatPaper.aiChatPaper

DraCo : L'ébauche comme raisonnement à chaînes pour la prévisualisation texte-image et la génération de concepts rares

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

December 4, 2025
papers.authors: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI

papers.abstract

Les modèles linguistiques multimodaux (MLLM) unifiés récents ont démontré des capacités impressionnantes, intégrant un raisonnement en chaîne de pensée (CoT) pour améliorer la génération d'images à partir de texte. Cependant, les approches existantes restent limitées, traitant soit le modèle comme un simple générateur autonome, soit en s'appuyant sur une planification textuelle abstraite. Pour cela, nous proposons Draft-as-CoT (DraCo), un nouveau paradigme de raisonnement entrelacé qui exploite pleinement les contenus textuels et visuels dans le CoT pour une meilleure planification et vérification. Notre méthode génère d'abord une image brouillon en basse résolution comme aperçu, fournissant une planification et un guidage visuels plus concrets et structurés. Ensuite, nous utilisons la capacité de compréhension inhérente du modèle pour vérifier les éventuels désalignements sémantiques entre le brouillon et l'invite, et effectuons un raffinement via des corrections sélectives avec super-résolution. Ainsi, notre approche aborde deux défis fondamentaux : la nature granulaire grossière de la planification textuelle et la difficulté à générer des combinaisons d'attributs rares. Pour soutenir l'entraînement, nous constituons DraCo-240K, visant à améliorer trois capacités atomiques couvrant la correction générale, la manipulation d'instances et la réorganisation de la mise en page. Soutenu par DraCo-CFG, une stratégie spécialisée de guidage sans classifieur (CFG) pour le raisonnement entrelacé, DraCo obtient une augmentation considérable sur GenEval (+8%), Imagine-Bench (+0.91) et GenEval++ (+3%), surpassant significativement la génération directe et d'autres méthodes de génération assistées par CoT.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.
PDF81December 6, 2025