마인드-브러시: 에이전트 기반 인지 탐색 및 추론을 이미지 생성에 통합하기
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
February 2, 2026
저자: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI
초록
텍스트-이미지 생성 기술이 전례 없는 사실성을 달성했지만, 기존 모델의 대부분은 근본적으로 정적 텍스트-픽셀 디코더로 기능합니다. 이로 인해 사용자의 암묵적 의도를 파악하지 못하는 경우가 빈번합니다. 최근 등장한 통합 이해-생성 모델들이 의도 이해 능력을 개선했지만, 여전히 복잡한 지식 추론을 수반하는 작업을 단일 모델 내에서 수행하는 데 어려움을 겪고 있습니다. 더욱이 정적인 내부 사전 지식에 제한되어 이러한 모델들은 진화하는 현실 세계의 역동성에 적응하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 생성 과정을 역동적이고 지식 주도적인 워크플로로 전환하는 통합 에이전트 프레임워크인 Mind-Brush를 소개합니다. Mind-Brush는 인간과 유사한 '사고-탐구-창조' 패러다임을 모방하여 분포 외 개념을 기반으로 삼기 위해 능동적으로 다중 모드 증거를 검색하고, 암묵적인 시각적 제약 조건을 해결하기 위해 추론 도구를 활용합니다. 이러한 능력을 엄격하게 평가하기 위해 실시간 뉴스, 신흥 개념, 수학 및 지리 추론과 같은 영역을 아우르는 500개의 다양한 샘플로 구성된 포괄적인 벤치마크인 Mind-Bench를 제안합니다. 폭넓은 실험을 통해 Mind-Brush가 통합 모델의 능력을 크게 향상시키며, Mind-Bench에서 Qwen-Image 기준 모델의 제로-투-원(0-to-1) 능력 도약을 실현하는 동시에 WISE 및 RISE와 같은 기존 벤치마크에서도 우수한 결과를 달성함을 입증합니다.
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.