ChatPaper.aiChatPaper

생각-후-생성: LLM 인코더를 활용한 추론 인식 텍스트-이미지 확산

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

January 15, 2026
저자: Siqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng
cs.AI

초록

최근 텍스트-이미지(T2I) 확산 모델(DM)의 발전으로 다양한 텍스트 프롬프트에서 고품질 시각적 합성이 가능해졌습니다. 그러나 대규모 언어 모델(LLM) 기반 텍스트 인코더를 탑재한 모델조차도 기존 T2I DM 대부분은 여전히 텍스트-픽셀 매퍼에 머물러 있습니다. 즉, LLM을 단순히 텍스트 인코더로만 활용할 뿐, 텍스트 프롬프트가 주어졌을 때 시각적으로 묘사해야 할 내용을 추론하는 LLM의 내재적 추론 능력을 활용하지 못하고 있습니다. 이러한 문자적 생성의 한계를 극복하기 위해 우리는 LLM 기반 텍스트 인코더가 원시 사용자 프롬프트에 대해 추론하고 재작성하도록 유도하는 think-then-generate(T2G) 패러다임을 제안합니다. 재작성된 프롬프트의 상태는 이후 확산 조건으로 사용됩니다. 이를 위해 먼저 경량 감독 미세 조정 과정을 통해 LLM 인코더의 think-then-rewrite 패턴을 활성화합니다. 이후 LLM 인코더와 확산 백본은 Dual-GRPO를 통해 맥락에 대한 충실한 추론과 의미의 정확한 렌더링을 보장하도록 공동 최적화됩니다. 구체적으로, 텍스트 인코더는 세계 지식을 추론하고 회상하도록 이미지 기반 보상으로 강화되는 반면, 확산 백본은 의미적으로 일관되고 시각적으로 통일된 이미지를 생성하도록 유도됩니다. 실험 결과, 추론 기반 이미지 생성 및 편집 벤치마크에서 사실적 일관성, 의미론적 정렬, 시각적 현실성 측면에서 상당한 개선이 확인되었으며, WISE 점수 0.79를 달성하여 GPT-4에 근접한 성능을 보였습니다. 우리의 결과는 추론, 표현, 구현 능력을 갖춘 차세대 통합 모델을 위한 유망한 진전을 이루었습니다.
English
Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.
PDF202January 17, 2026