ChatPaper.aiChatPaper

マインドブラッシュ:エージェント的認知探索と推論を画像生成に統合する

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

February 2, 2026
著者: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI

要旨

テキストから画像への生成は前例のない精緻さを達成したが、既存モデルの大半は本質的に静的なテキスト-ピクセル変換器として機能している。その結果、暗黙的なユーザーの意図を捉え損ねるケースが少なくない。理解と生成を統合した新興モデルは意図理解の改善に寄与するものの、複雑な知識推論を要するタスクを単一モデルで達成するには依然として課題を残す。さらに、静的な内部事前分布に制約されるため、これらのモデルは現実世界の動的に変化する状況へ適応することができない。これらの課題を解決するため、我々は生成を動的で知識駆動型のワークフローへ変換する統合エージェントフレームワーク「Mind-Brush」を提案する。人間の「思考・調査・創作」パラダイムを模倣し、Mind-Brushはマルチモーダル証拠を能動的に検索して分布外概念を接地させ、推論ツールを活用して暗黙的な視覚的制約を解決する。これらの能力を厳密に評価するため、リアルタイムニュース、新興概念、数学的推論・地理推論などの領域にわたる500の多様なサンプルから構成される総合ベンチマーク「Mind-Bench」を構築した。大規模な実験により、Mind-Brushが統合モデルの能力を大幅に強化し、Mind-BenchにおけるQwen-Imageベースラインのゼロからイチへの能力飛躍を実現するとともに、WISEやRISEなどの確立されたベンチマークでも優れた結果を達成することが実証された。
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.
PDF222February 7, 2026