DraCo: Rascunho como CoT para Pré-visualização de Texto para Imagem e Geração de Conceitos Raros

Resumo

Os recentes modelos linguísticos grandes multimodais unificados (MLLMs) demonstraram capacidades impressionantes, incorporando raciocínio em cadeia de pensamento (CoT) para aprimorar a geração de texto para imagem. No entanto, as abordagens existentes permanecem limitadas, tratando o modelo meramente como um gerador autônomo ou dependendo de planejamento textual abstrato. Para tanto, propomos o Draft-as-CoT (DraCo), um novo paradigma de raciocínio intercalado que aproveita plenamente tanto os conteúdos textuais quanto os visuais no CoT para melhor planejamento e verificação. Nosso método primeiro gera um rascunho de imagem em baixa resolução como pré-visualização, fornecendo um planejamento e orientação visual mais concretos e estruturais. Em seguida, empregamos a capacidade de compreensão inerente do modelo para verificar possíveis desalinhamentos semânticos entre o rascunho e o prompt de entrada, e realiza refinamento por meio de correções seletivas com super-resolução. Dessa forma, nossa abordagem aborda dois desafios fundamentais: a natureza de granularidade grossa do planejamento textual e a dificuldade em gerar combinações raras de atributos. Para apoiar o treinamento, criamos o DraCo-240K, visando aprimorar três capacidades atômicas abrangendo correção geral, manipulação de instâncias e reorganização de layout. Suportado pelo DraCo-CFG, uma estratégia especializada de orientação livre de classificador (CFG) para raciocínio intercalado, o DraCo alcança um aumento significativo no GenEval (+8%), Imagine-Bench (+0.91) e GenEval++ (+3%), superando significativamente a geração direta e outros métodos de geração potencializados por CoT.

English

Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.