DraCo: Borrador como CoT para Vista Previa de Texto a Imagen y Generación de Conceptos Raros
DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
December 4, 2025
Autores: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI
Resumen
Los modelos lingüísticos multimodales grandes (MLLM) unificados recientes han demostrado capacidades impresionantes, incorporando razonamiento de cadena de pensamiento (CoT) para mejorar la generación de texto a imagen. Sin embargo, los enfoques existentes siguen siendo limitados, ya sea tratando al modelo meramente como un generador independiente o dependiendo de una planificación textual abstracta. Para ello, proponemos Draft-as-CoT (DraCo), un nuevo paradigma de razonamiento intercalado que aprovecha plenamente tanto los contenidos textuales como visuales en CoT para una mejor planificación y verificación. Nuestro método genera primero una imagen de borrador de baja resolución como vista previa, proporcionando una planificación y guía visual más concreta y estructural. Luego, empleamos la capacidad de comprensión inherente del modelo para verificar posibles desalineaciones semánticas entre el borrador y la instrucción de entrada, y realiza un refinamiento mediante correcciones selectivas con superresolución. De esta manera, nuestro enfoque aborda dos desafíos fundamentales: la naturaleza de grano grueso de la planificación textual y la dificultad para generar combinaciones de atributos raros. Para apoyar el entrenamiento, hemos creado DraCo-240K, con el objetivo de mejorar tres capacidades atómicas que abarcan la corrección general, la manipulación de instancias y la reorganización del diseño. Respaldado por DraCo-CFG, una estrategia especializada de guía sin clasificador (CFG) para el razonamiento intercalado, DraCo logra un aumento tremendo en GenEval (+8%), Imagine-Bench (+0.91) y GenEval++ (+3%), superando significativamente a la generación directa y otros métodos de generación potenciados por CoT.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.