Denk-Dan-Genereer: Redeneerbewust Tekst-naar-Beeld Diffusie met LLM-Encoders

Samenvatting

Recente vooruitgang in tekst-naar-beeld (T2I) diffusiemodellen (DM's) heeft hoogwaardige visuele synthese mogelijk gemaakt vanuit diverse tekstuele prompts. Toch zijn de meeste bestaande T2I DM's, zelfs die zijn uitgerust met tekstencoders op basis van grote taalmmodellen (LLM's), nog steeds tekst-pixel mappers – ze zetten LLM's slechts in als tekstencoders, zonder hun inherente redeneervermogen te benutten om af te leiden wat visueel weergegeven zou moeten worden gegeven de tekstuele prompt. Om verder te gaan dan dergelijke letterlijke generatie, stellen we het denk-dan-genereer (T2G) paradigma voor, waarbij de LLM-gebaseerde tekstencoder wordt aangemoedigd om te redeneren over en ruwe gebruikersprompts te herschrijven; de toestanden van de herschreven prompts dienen vervolgens als diffusie-conditionering. Om dit te bereiken, activeren we eerst het denk-dan-herschrijf patroon van de LLM-encoder met een lichtgewicht supervised fine-tuning proces. Vervolgens worden de LLM-encoder en de diffusie-backbone gezamenlijk geoptimaliseerd om een correcte redenering over de context en een accurate weergave van de semantiek te waarborgen via Dual-GRPO. In het bijzonder wordt de tekstencoder versterkt met op afbeeldingen gebaseerde beloningen om wereldkennis af te leiden en op te roepen, terwijl de diffusie-backbone wordt aangespoord om semantisch consistente en visueel coherente beelden te produceren. Experimenten tonen substantiële verbeteringen aan in feitelijke consistentie, semantische uitlijning en visuele realisme across redeneringsgebaseerde beeldgeneratie- en bewerkingsbenchmarks, met een score van 0.79 op de WISE-score, bijna gelijk aan GPT-4. Onze resultaten vormen een veelbelovende stap richting next-generation unified modellen met redeneer-, expressie- en demonstratiecapaciteiten.

English

Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.

Denk-Dan-Genereer: Redeneerbewust Tekst-naar-Beeld Diffusie met LLM-Encoders

Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders

Samenvatting

Support