ChatPaper.aiChatPaper

Mind-Brush: Integration agentischer kognitiver Suche und logischen Schließens in die Bildgenerierung

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

February 2, 2026
papers.authors: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI

papers.abstract

Während die Text-zu-Bild-Generierung beispiellose Detailtreue erreicht hat, funktionieren die allermeisten bestehenden Modelle im Wesentlichen als statische Text-zu-Pixel-Decoder. Folglich erfassen sie oft nicht die impliziten Absichten des Nutzers. Obwohl neu aufkommende vereinheitlichte Verstehens- und Generierungsmodelle das Verständnis für Intentionen verbessert haben, haben sie immer noch Schwierigkeiten, Aufgaben zu bewältigen, die komplexe Wissensabfolgen innerhalb eines einzelnen Modells erfordern. Darüber hinaus können diese Modelle, beschränkt durch statische interne Priors, sich nicht an die sich entwickelnde Dynamik der realen Welt anpassen. Um diese Lücken zu schließen, stellen wir Mind-Brush vor, einen vereinheitlichten agentenbasierten Rahmen, der Generierung in einen dynamischen, wissensgesteuerten Workflow transformiert. Indem es ein menschenähnliches „Denken-Recherchieren-Erstellen“-Paradigma simuliert, ruft Mind-Brush aktiv multimodale Evidenzen ab, um Out-of-Distribution-Konzepte zu verankern, und setzt Reasoning-Tools ein, um implizite visuelle Randbedingungen aufzulösen. Um diese Fähigkeiten rigoros zu bewerten, schlagen wir Mind-Bench vor, einen umfassenden Benchmark, der 500 verschiedene Samples umfasst, die Echtzeit-Nachrichten, neu aufkommende Konzepte und Domänen wie mathematisches und Geo-Reasoning abdecken. Umfangreiche Experimente zeigen, dass Mind-Brush die Fähigkeiten vereinheitlichter Modelle signifikant steigert und einen Fähigkeitssprung von null auf eins für die Qwen-Image-Baseline auf Mind-Bench realisiert, während es gleichzeitig überlegene Ergebnisse auf etablierten Benchmarks wie WISE und RISE erzielt.
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.
PDF222February 7, 2026