Pincel Mental: Integrando Busca Cognitiva e Raciocínio Agentes na Geração de Imagens

Resumo

Embora a geração de imagens a partir de texto tenha alcançado uma fidelidade sem precedentes, a grande maioria dos modelos existentes funciona fundamentalmente como decodificadores estáticos de texto para pixel. Consequentemente, eles frequentemente falham em compreender as intenções implícitas do usuário. Embora os modelos unificados emergentes de compreensão-geração tenham melhorado a compreensão de intenções, eles ainda lutam para realizar tarefas que envolvem raciocínio complexo de conhecimento dentro de um único modelo. Além disso, limitados por *priors* internos estáticos, esses modelos permanecem incapazes de se adaptar à dinâmica em evolução do mundo real. Para preencher essas lacunas, introduzimos o Mind-Brush, uma estrutura de agente unificada que transforma a geração em um fluxo de trabalho dinâmico e orientado pelo conhecimento. Simulando um paradigma humano de 'pensar-pesquisar-criar', o Mind-Brush recupera ativamente evidências multimodais para fundamentar conceitos fora de distribuição e emprega ferramentas de raciocínio para resolver restrições visuais implícitas. Para avaliar rigorosamente essas capacidades, propomos o Mind-Bench, um benchmark abrangente composto por 500 amostras distintas abrangendo notícias em tempo real, conceitos emergentes e domínios como Raciocínio Matemático e Geo-Raciocínio. Experimentos extensivos demonstram que o Mind-Brush melhora significativamente as capacidades dos modelos unificados, realizando um salto de capacidade de zero para um para a linha de base Qwen-Image no Mind-Bench, enquanto alcança resultados superiores em benchmarks estabelecidos como WISE e RISE.

English

While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.

Pincel Mental: Integrando Busca Cognitiva e Raciocínio Agentes na Geração de Imagens

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

Resumo

Support