ChatPaper.aiChatPaper

Pinceau Mental : Intégration de la recherche cognitive agentique et du raisonnement dans la génération d'images

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

February 2, 2026
papers.authors: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI

papers.abstract

Bien que la génération texte-image ait atteint une fidélité sans précédent, la grande majorité des modèles existants fonctionnent fondamentalement comme des décodeurs statiques texte-pixels. Par conséquent, ils échouent souvent à saisir les intentions implicites de l'utilisateur. Bien que les modèles unifiés émergents de compréhension-génération aient amélioré la compréhension de l'intention, ils peinent encore à accomplir des tâches impliquant un raisonnement complexe sur les connaissances au sein d'un modèle unique. De plus, contraints par des connaissances a priori statiques, ces modèles restent incapables de s'adapter à la dynamique évolutive du monde réel. Pour combler ces lacunes, nous présentons Mind-Brush, un cadre agentiel unifié qui transforme la génération en un flux de travail dynamique et piloté par la connaissance. Simulant un paradigme humain « penser-rechercher-créer », Mind-Brush récupère activement des preuves multimodales pour ancrer des concepts hors distribution et utilise des outils de raisonnement pour résoudre des contraintes visuelles implicites. Pour évaluer rigoureusement ces capacités, nous proposons Mind-Bench, un benchmark complet comprenant 500 échantillons distincts couvrant l'actualité en temps réel, les concepts émergents et des domaines tels que le raisonnement mathématique et géographique. Des expériences approfondies démontrent que Mind-Brush améliore significativement les capacités des modèles unifiés, réalisant un saut capacitaire de zéro à un pour la baseline Qwen-Image sur Mind-Bench, tout en obtenant des résultats supérieurs sur des benchmarks établis comme WISE et RISE.
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.
PDF222February 7, 2026