ChatPaper.aiChatPaper

Piensa-Luego-Genera: Difusión de Texto a Imagen con Conciencia del Razonamiento mediante Codificadores de LLM

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

January 15, 2026
Autores: Siqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng
cs.AI

Resumen

Los recientes avances en los modelos de difusión (MD) de texto a imagen (T2I) han permitido la síntesis visual de alta calidad a partir de diversos textos descriptivos. Sin embargo, la mayoría de los MD T2I existentes, incluso aquellos equipados con codificadores de texto basados en modelos de lenguaje grande (LLM), siguen siendo mapeadores texto-píxel: emplean los LLM meramente como codificadores de texto, sin aprovechar sus capacidades de razonamiento inherentes para inferir qué debe representarse visualmente dado el texto descriptivo. Para ir más allá de esta generación literal, proponemos el paradigma pensar-luego-generar (T2G), en el que se incentiva al codificador de texto basado en LLM a razonar y reescribir las indicaciones crudas del usuario; los estados de las indicaciones reescritas sirven entonces como condicionamiento para la difusión. Para lograrlo, primero activamos el patrón pensar-luego-reescribir del codificador LLM mediante un proceso ligero de ajuste fino supervisado. Posteriormente, el codificador LLM y el modelo base de difusión se co-optimizan para garantizar un razonamiento fiel del contexto y una representación precisa de la semántica mediante Dual-GRPO. En particular, el codificador de texto se refuerza utilizando recompensas basadas en imágenes para inferir y recordar conocimiento del mundo, mientras que el modelo base de difusión se impulsa para producir imágenes semánticamente consistentes y visualmente coherentes. Los experimentos muestran mejoras sustanciales en la consistencia fáctica, la alineación semántica y el realismo visual en benchmarks de generación y edición de imágenes basadas en razonamiento, alcanzando un 0.79 en la puntuación WISE, casi a la par con GPT-4. Nuestros resultados constituyen un paso prometedor hacia modelos unificados de próxima generación con capacidades de razonamiento, expresión y demostración.
English
Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.
PDF202January 17, 2026