ChatPaper.aiChatPaper

Унифицированный мыслитель: универсальное модульное ядро логического вывода для генерации изображений

Unified Thinker: A General Reasoning Modular Core for Image Generation

January 6, 2026
Авторы: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI

Аннотация

Несмотря на впечатляющий прогресс в синтезе изображений высокой точности, генеративные модели по-прежнему испытывают трудности с выполнением инструкций, требующих сложной логики, что выявляет сохраняющийся разрыв между рассуждением и исполнением. В то же время закрытые системы (например, Nano Banana) продемонстрировали мощную генерацию изображений на основе рассуждений, подчеркивая существенное отставание современных открытых моделей. Мы утверждаем, что для преодоления этого разрыва необходимы не просто улучшенные визуальные генераторы, а исполняемое рассуждение: декомпозиция высокоуровневых намерений в обоснованные, проверяемые планы, которые напрямую направляют генеративный процесс. С этой целью мы предлагаем Unified Thinker, независимую от задач архитектуру рассуждений для общей генерации изображений, спроектированную как унифицированное ядро планирования, которое можно интегрировать в различные генераторы и рабочие процессы. Unified Thinker отделяет специализированный модуль Рассуждений (Thinker) от Генератора изображений, что позволяет модульно улучшать способность к рассуждению без переобучения всей генеративной модели. Мы также вводим двухэтапную парадигму обучения: сначала мы создаем структурированный интерфейс планирования для модуля Рассуждений, затем применяем обучение с подкреплением для обоснования его политики на основе обратной связи на уровне пикселей, поощряя планы, которые оптимизируют визуальную корректность, а не текстовую правдоподобность. Многочисленные эксперименты по генерации изображений по тексту и редактированию изображений показывают, что Unified Thinker существенно улучшает качество рассуждений и генерации изображений.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
PDF72January 16, 2026