Mind-Brush: De integratie van agent-achtig cognitief zoeken en redeneren in beeldgeneratie
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
February 2, 2026
Auteurs: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI
Samenvatting
Hoewel tekst-naar-beeldgeneratie een ongekende nauwkeurigheid heeft bereikt, functioneert de overgrote meerderheid van bestaande modellen in wezen als statische tekst-naar-pixel-decoders. Hierdoor slagen zij er vaak niet in impliciete gebruikersintenties te begrijpen. Hoewel opkomende geünificeerde begrips-generatiemodellen het intentiebegrip hebben verbeterd, hebben zij nog steeds moeite met taken die complexe kennisredenering vereisen binnen één model. Bovendien kunnen deze modellen, beperkt door statische interne prioriteiten, zich niet aanpassen aan de evoluerende dynamiek van de echte wereld. Om deze kloof te overbruggen, introduceren wij Mind-Brush, een geünificeerd agent-gebaseerd raamwerk dat generatie omzet in een dynamische, kennisdrijvende workflow. Mind-Brush simuleert een menselijk 'denk-onderzoek-creëer'-paradigma door actief multimodale informatie op te halen om buiten-de-verdeling-concepten te verankeren en redeneerhulpmiddelen in te zetten om impliciete visuele beperkingen op te lossen. Om deze capaciteiten rigoureus te evalueren, stellen wij Mind-Bench voor, een uitgebreide benchmark bestaande uit 500 verschillende samples die real-time nieuws, opkomende concepten en domeinen zoals wiskundige en geo-redenering omvat. Uitgebreide experimenten tonen aan dat Mind-Brush de capaciteiten van geünificeerde modellen aanzienlijk verbetert, waarbij een nul-tot-één-capaciteitssprong wordt gerealiseerd voor de Qwen-Image-basislijn op Mind-Bench, terwijl superieure resultaten worden behaald op gevestigde benchmarks zoals WISE en RISE.
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.