ChatPaper.aiChatPaper

思考してから生成:LLMエンコーダーによる推論を考慮したテキストから画像への拡散モデル

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

January 15, 2026
著者: Siqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng
cs.AI

要旨

近年、テキストから画像への変換(T2I)拡散モデル(DM)の進歩により、多様なテキストプロンプトからの高品質な視覚的合成が可能となった。しかし、大規模言語モデル(LLM)ベースのテキストエンコーダを備えたモデルでさえ、既存のT2I DMの多くは依然として「テキスト-ピクセル変換器」にとどまっている。すなわち、LLMを単なるテキストエンコーダとして利用し、テキストプロンプトから視覚的に描写すべき内容を推論するというLLMの本来の推論能力を活用していない。このような文字通りの生成を超えるため、我々は「思考してから生成する(T2G)」パラダイムを提案する。このパラダイムでは、LLMベースのテキストエンコーダが、生のユーザープロンプトについて推論し書き換えることが促される。書き換えられたプロンプトの状態が、拡散過程の条件付けとして機能するのである。 これを実現するため、まず軽量な教師ありファインチューニングプロセスにより、LLMエンコーダの「思考してから書き換える」パターンを活性化する。続いて、Dual-GRPOを通じて、LLMエンコーダと拡散モデルのバックボーンを共同最適化し、文脈に関する忠実な推論と意味内容の正確な描画を保証する。具体的には、テキストエンコーダは画像に基づく報酬を用いて強化され、世界知識を推論し想起するように促される。一方、拡散モデルのバックボーンは、意味的に一貫し視覚的に調和のとれた画像を生成するように押し上げられる。 実験結果は、推論に基づく画像生成および編集ベンチマークにおいて、事実の一貫性、意味的整合性、視覚的なリアリズムにおいて大幅な改善を示しており、WISEスコアで0.79を達成し、GPT-4にほぼ匹敵する性能を得た。我々の成果は、推論、表現、実証の能力を備えた次世代統合モデルへの有望な一歩を構成するものである。
English
Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.
PDF202January 17, 2026