Pincel Mental: Integración de la Búsqueda Cognitiva Agente y el Razonamiento en la Generación de Imágenes
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation
February 2, 2026
Autores: Jun He, Junyan Ye, Zilong Huang, Dongzhi Jiang, Chenjue Zhang, Leqi Zhu, Renrui Zhang, Xiang Zhang, Weijia Li
cs.AI
Resumen
Si bien la generación de texto a imagen ha logrado una fidelidad sin precedentes, la gran mayoría de los modelos existentes funcionan fundamentalmente como decodificadores estáticos de texto a píxeles. En consecuencia, a menudo no logran captar las intenciones implícitas del usuario. Aunque los nuevos modelos unificados de comprensión-generación han mejorado la comprensión de la intención, todavía tienen dificultades para realizar tareas que implican razonamiento complejo sobre el conocimiento dentro de un único modelo. Además, limitados por sus conocimientos previos estáticos, estos modelos siguen sin poder adaptarse a la dinámica en evolución del mundo real. Para salvar estas brechas, presentamos Mind-Brush, un marco agente unificado que transforma la generación en un flujo de trabajo dinámico y basado en el conocimiento. Simulando un paradigma humano de 'pensar-investigar-crear', Mind-Brush recupera activamente evidencia multimodal para fundamentar conceptos fuera de distribución y emplea herramientas de razonamiento para resolver restricciones visuales implícitas. Para evaluar rigurosamente estas capacidades, proponemos Mind-Bench, un benchmark integral que comprende 500 muestras distintas que abarcan noticias en tiempo real, conceptos emergentes y dominios como el Razonamiento Matemático y Geoespacial. Experimentos exhaustivos demuestran que Mind-Brush mejora significativamente las capacidades de los modelos unificados, logrando un salto de capacidad de cero a uno para la línea base Qwen-Image en Mind-Bench, al tiempo que alcanza resultados superiores en benchmarks establecidos como WISE y RISE.
English
While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.