Penser-Puis-Générer : Diffusion texte-image raisonnée avec encodeurs LLM
Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
January 15, 2026
papers.authors: Siqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng
cs.AI
papers.abstract
Les progrès récents des modèles de diffusion (DMs) texte-image (T2I) ont permis une synthèse visuelle de haute qualité à partir de diverses instructions textuelles. Cependant, la plupart des DMs T2I existants, même ceux équipés d'encodeurs de texte basés sur de grands modèles de langage (LLM), restent des mappeurs texte-pixels : ils utilisent les LLM simplement comme encodeurs de texte, sans exploiter leurs capacités de raisonnement intrinsèques pour déduire ce qui devrait être représenté visuellement étant donné l'instruction textuelle. Pour aller au-delà d'une telle génération littérale, nous proposons le paradigme penser-puis-générer (T2G), où l'encodeur de texte basé sur un LLM est incité à raisonner et à reformuler les instructions brutes de l'utilisateur ; les états des instructions reformulées servent ensuite de conditionnement pour la diffusion. Pour y parvenir, nous activons d'abord le schéma penser-puis-reformuler de l'encodeur LLM grâce à un processus de fine-tuning supervisé léger. Ensuite, l'encodeur LLM et le backbone de diffusion sont co-optimisés via Dual-GRPO pour garantir un raisonnement fidèle du contexte et un rendu précis de la sémantique. Plus précisément, l'encodeur de texte est renforcé à l'aide de récompenses ancrées dans l'image pour inférer et rappeler des connaissances du monde, tandis que le backbone de diffusion est poussé à produire des images sémantiquement cohérentes et visuellement réalistes. Les expériences montrent des améliorations substantielles en matière de cohérence factuelle, d'alignement sémantique et de réalisme visuel sur des benchmarks de génération et d'édition d'images basées sur le raisonnement, atteignant un score de 0,79 sur WISE, presque à égalité avec GPT-4. Nos résultats constituent une étape prometteuse vers des modèles unifiés de nouvelle génération dotés de capacités de raisonnement, d'expression et de démonstration.
English
Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.