ChatPaper.aiChatPaper

DraCo: Черновик как CoT для предпросмотра текстовых изображений и генерации редких концепций

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

December 4, 2025
Авторы: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI

Аннотация

Современные унифицированные мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие возможности, включая рассуждения по цепочке мыслей (CoT) для улучшения генерации изображений по тексту. Однако существующие подходы остаются ограниченными: они либо рассматривают модель лишь как автономный генератор, либо полагаются на абстрактное текстовое планирование. В связи с этим мы предлагаем Draft-as-CoT (DraCo) — новую парадигму чередующегося рассуждения, которая в полной мере использует как текстовое, так и визуальное содержимое в CoT для лучшего планирования и верификации. Наш метод сначала генерирует изображение-черновик низкого разрешения для предварительного просмотра, обеспечивая более конкретное и структурное визуальное планирование и руководство. Затем мы используем присущую модели способность к пониманию для проверки потенциальных семантических несоответствий между черновиком и входным промптом и выполняем уточнение путем выборочных исправлений с применением сверхразрешения. Таким образом, наш подход решает две фундаментальные проблемы: грубозернистый характер текстового планирования и сложность генерации комбинаций редких атрибутов. Для поддержки обучения мы создали набор данных DraCo-240K, направленный на развитие трех базовых способностей: общего исправления, манипулирования объектами и реорганизации компоновки. Благодаря DraCo-CFG, специализированной стратегии классификаторно-свободного управления (CFG) для чередующегося рассуждения, DraCo демонстрирует значительный рост показателей на GenEval (+8%), Imagine-Bench (+0.91) и GenEval++ (+3%), существенно превосходя прямую генерацию и другие методы генерации, усиленные CoT.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.
PDF81December 6, 2025