Pense-Então-Gere: Difusão de Texto para Imagem com Consciência do Raciocínio através de Codificadores LLM

Resumo

Os recentes avanços nos modelos de difusão (DMs) de texto para imagem (T2I) permitiram a síntese visual de alta qualidade a partir de diversos prompts textuais. No entanto, a maioria dos DMs T2I existentes, mesmo aqueles equipados com codificadores de texto baseados em modelos de linguagem grande (LLMs), permanecem como mapeadores texto-pixel – eles empregam LLMs meramente como codificadores de texto, sem aproveitar suas capacidades de raciocínio inerentes para inferir o que deve ser representado visualmente dado o prompt textual. Para ir além dessa geração literal, propomos o paradigma *think-then-generate* (T2G, pensar-então-gerar), onde o codificador de texto baseado em LLM é incentivado a raciocinar e reescrever os prompts brutos do usuário; os estados dos prompts reescritos servem então como condicionamento para a difusão. Para alcançar isto, primeiro ativamos o padrão pensar-então-reescrever do codificador LLM com um processo leve de ajuste fino supervisionado. Subsequentemente, o codificador LLM e a base de difusão são co-otimizados para garantir um raciocínio fiel sobre o contexto e uma renderização precisa da semântica via Dual-GRPO. Em particular, o codificador de texto é reforçado usando recompensas fundamentadas na imagem para inferir e recordar conhecimento mundial, enquanto a base de difusão é impulsionada a produzir imagens semanticamente consistentes e visualmente coerentes. Experimentos mostram melhorias substanciais na consistência factual, no alinhamento semântico e no realismo visual em benchmarks de geração e edição de imagens baseadas em raciocínio, alcançando 0,79 no score WISE, quase equivalente ao GPT-4. Nossos resultados constituem um passo promissor em direção a modelos unificados de próxima geração com capacidades de raciocínio, expressão e demonstração.

English

Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.

Pense-Então-Gere: Difusão de Texto para Imagem com Consciência do Raciocínio através de Codificadores LLM

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

Resumo

Support