Думай-Затем-Генерируй: Осознающий логику текстово-визуальный диффузионный метод с кодировщиками на основе больших языковых моделей
Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
January 15, 2026
Авторы: Siqi Kou, Jiachun Jin, Zetong Zhou, Ye Ma, Yugang Wang, Quan Chen, Peng Jiang, Xiao Yang, Jun Zhu, Kai Yu, Zhijie Deng
cs.AI
Аннотация
Последние достижения в области диффузионных моделей (ДМ) для генерации изображений по тексту (text-to-image, T2I) позволили добиться высококачественного визуального синтеза по разнообразным текстовым запросам. Однако большинство существующих T2I ДМ, даже оснащённые текстовыми энкодерами на основе больших языковых моделей (БЯМ), остаются преобразователями «текст-пиксели» — они используют БЯМ лишь в качестве текстовых энкодеров, не задействуя их присущие способности к рассуждению для вывода того, что должно быть изображено визуально по заданному текстовому запросу. Чтобы выйти за рамки такого буквального поколения, мы предлагаем парадигму «подумай, затем сгенерируй» (think-then-generate, T2G), в которой текстовый энкодер на основе БЯМ побуждается к рассуждению и переформулированию исходных пользовательских запросов; состояния переписанных запросов затем служат условиями для диффузии. Для этого мы сначала активируем шаблон «подумай и перепиши» в энкодере БЯМ с помощью лёгкого процесса контролируемого тонкого обучения. Впоследствии энкодер БЯМ и диффузионная основа совместно оптимизируются с использованием метода Dual-GRPO для обеспечения достоверного рассуждения о контексте и точного воспроизведения семантики. В частности, текстовый энкoder усиливается с использованием вознаграждений, основанных на изображениях, для вывода и припоминания знаний о мире, в то время как диффузионная основа стимулируется к созданию семантически согласованных и визуально целостных изображений. Эксперименты показывают существенное улучшение фактической согласованности, семантического соответствия и визуального реализма на бенчмарках для генерации и редактирования изображений, основанных на рассуждениях, достигая показателя 0.79 по шкале WISE, что почти соответствует уровню GPT-4. Наши результаты представляют собой многообещающий шаг к созданию моделей следующего поколения, объединяющих способности к рассуждению, выражению и демонстрации.
English
Recent progress in text-to-image (T2I) diffusion models (DMs) has enabled high-quality visual synthesis from diverse textual prompts. Yet, most existing T2I DMs, even those equipped with large language model (LLM)-based text encoders, remain text-pixel mappers -- they employ LLMs merely as text encoders, without leveraging their inherent reasoning capabilities to infer what should be visually depicted given the textual prompt. To move beyond such literal generation, we propose the think-then-generate (T2G) paradigm, where the LLM-based text encoder is encouraged to reason about and rewrite raw user prompts; the states of the rewritten prompts then serve as diffusion conditioning. To achieve this, we first activate the think-then-rewrite pattern of the LLM encoder with a lightweight supervised fine-tuning process. Subsequently, the LLM encoder and diffusion backbone are co-optimized to ensure faithful reasoning about the context and accurate rendering of the semantics via Dual-GRPO. In particular, the text encoder is reinforced using image-grounded rewards to infer and recall world knowledge, while the diffusion backbone is pushed to produce semantically consistent and visually coherent images. Experiments show substantial improvements in factual consistency, semantic alignment, and visual realism across reasoning-based image generation and editing benchmarks, achieving 0.79 on WISE score, nearly on par with GPT-4. Our results constitute a promising step toward next-generation unified models with reasoning, expression, and demonstration capacities.