ChatPaper.aiChatPaper

DraCo: 텍스트-이미지 미리보기 및 희귀 개념 생성을 위한 CoT 기반 초안 생성

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

December 4, 2025
저자: Dongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li
cs.AI

초록

최근 통합된 멀티모달 대규모 언어 모델(MLLM)은 텍스트-이미지 생성 성능 향상을 위한 사고 연쇄(CoT) 추론을 도입하며 인상적인 능력을 보여주고 있습니다. 그러나 기존 접근법은 모델을 단순히 독립형 생성기로 취급하거나 추상적인 텍스트 기반 계획에 의존하는 등 한계가 있습니다. 이를 해결하기 위해 본 논문에서는 CoT 과정에서 텍스트와 시각적 내용을 모두 완전히 활용하여 더 나은 계획 및 검증을 수행하는 새로운 인터리브 추론 패러다임인 Draft-as-CoT(DraCo)를 제안합니다. 우리의 방법은 먼저 미리보기 역할을 하는 저해상도 초안 이미지를 생성하여 보다 구체적이고 구조화된 시각적 계획과 지침을 제공합니다. 그런 다음 모델의 내재된 이해 능력을 활용하여 초안과 입력 프롬프트 간의 잠재적 의미론적 불일치를 검증하고, 선택적 수정과 초해상도 기술을 통해 정제를 수행합니다. 이를 통해 본 접근법은 텍스트 기반 계획의 과도하게 거친 단위 문제와 희귀 속성 조합 생성의 어려움이라는 두 가지 근본적인 과제를 해결합니다. 학습을 지원하기 위해 일반적 수정, 인스턴스 조작, 레이아웃 재구성이라는 세 가지 원자적 능력 향상을 목표로 DraCo-240K 데이터 세트를 구축했습니다. 인터리브 추론을 위한 전용 classifier-free guidance(CFG) 전략인 DraCo-CFG의 지원 아래, DraCo는 GenEval(+8%), Imagine-Bench(+0.91), GenEval++(+3%)에서 크게 향상된 성능을 달성하여 직접 생성 및 CoT 기반 다른 생성 방법들을 크게 능가합니다.
English
Recent unified multimodal large language models (MLLMs) have shown impressive capabilities, incorporating chain-of-thought (CoT) reasoning for enhanced text-to-image generation. However, existing approaches remain limited, either treating the model merely as a standalone generator or relying on abstract textual planning. To this end, we propose Draft-as-CoT (DraCo), a novel interleaved reasoning paradigm that fully leverages both textual and visual contents in CoT for better planning and verification. Our method first generates a low-resolution draft image as preview, providing more concrete and structural visual planning and guidance. Then, we employ the model's inherent understanding capability to verify potential semantic misalignments between the draft and input prompt, and performs refinement through selective corrections with super-resolution. In this way, our approach addresses two fundamental challenges: the coarse-grained nature of textual planning and the difficulty in generating rare attribute combinations. To support training, we curate DraCo-240K, aiming to enhance three atomic capabilities spanning general correction, instance manipulation, and layout reorganization. Supported by DraCo-CFG, a specialized classifier-free guidance (CFG) strategy for interleaved reasoning, DraCo achieves a tremendous increase on GenEval (+8%), Imagine-Bench (+0.91), and GenEval++ (+3%), significantly outperforming direct generation and other generation methods empowered by CoT.
PDF81December 6, 2025