Разум-Кисть: Интеграция агентного когнитивного поиска и рассуждений в генерацию изображений
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
February 2, 2026
Авторы: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI
Аннотация
Хотя генерация изображений по тексту достигла беспрецедентной точности, подавляющее большинство существующих моделей функционируют по своей сути как статические декодеры «текст-в-пиксели». Как следствие, они часто не улавливают неявные намерения пользователя. Несмотря на то, что новые унифицированные модели понимания-генерации улучшили распознавание intent, они по-прежнему испытывают трудности с выполнением задач, требующих сложных логических выводов на основе знаний, в рамках единой модели. Более того, ограниченные статическими внутренними априорными представлениями, эти модели остаются неспособными адаптироваться к изменяющейся динамике реального мира. Для преодоления этих пробелов мы представляем Mind-Brush — унифицированную агентскую платформу, преобразующую генерацию в динамический workflow, управляемый знаниями. Имитируя человеческую парадигму «думай-исследуй-создавай», Mind-Brush активно извлекает мультимодальные свидетельства для обоснования концепций вне распределения данных и использует инструменты логического вывода для разрешения неявных визуальных ограничений. Для строгой оценки этих возможностей мы предлагаем Mind-Bench — комплексный бенчмарк, содержащий 500 уникальных образцов, охватывающих новости в реальном времени, emerging concepts и такие области, как математические и пространственные рассуждения. Многочисленные эксперименты демонстрируют, что Mind-Brush существенно расширяет возможности унифицированных моделей, обеспечивая скачок способностей от нуля к единице для базовой модели Qwen-Image на Mind-Bench, одновременно достигая превосходных результатов на устоявшихся бенчмарках, таких как WISE и RISE.
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.