Pennello della Mente: Integrazione della Ricerca Cognitiva Agente e del Ragionamento nella Generazione di Immagini

Abstract

Sebbene la generazione di immagini da testo abbia raggiunto una fedeltà senza precedenti, la stragrande maggioranza dei modelli esistenti funziona fondamentalmente come decodificatori statici da testo a pixel. Di conseguenza, spesso non colgono le intenzioni implicite dell'utente. Sebbene i modelli unificati emergenti di comprensione-generazione abbiano migliorato la comprensione dell'intento, faticano ancora a portare a termine compiti che implicano un ragionamento complesso sulla conoscenza all'interno di un singolo modello. Inoltre, limitati da prior interni statici, questi modelli rimangono incapaci di adattarsi alle dinamiche in evoluzione del mondo reale. Per colmare queste lacune, introduciamo Mind-Brush, un framework agenziale unificato che trasforma la generazione in un flusso di lavoro dinamico e guidato dalla conoscenza. Simulando un paradigma umano "pensa-ricerca-crea", Mind-Brush recupera attivamente evidenze multimodali per ancorare concetti fuori distribuzione e impiega strumenti di ragionamento per risolvere vincoli visivi impliciti. Per valutare rigorosamente queste capacità, proponiamo Mind-Bench, un benchmark completo comprendente 500 campioni distinti che abbracciano notizie in tempo reale, concetti emergenti e domini come il ragionamento matematico e geo-spaziale. Esperimenti estensivi dimostrano che Mind-Brush migliora significativamente le capacità dei modelli unificati, realizzando un salto di capacità da zero a uno per la baseline Qwen-Image su Mind-Bench, raggiungendo al contempo risultati superiori su benchmark consolidati come WISE e RISE.

English

While text-to-image generation has achieved unprecedented fidelity, the vast majority of existing models function fundamentally as static text-to-pixel decoders. Consequently, they often fail to grasp implicit user intentions. Although emerging unified understanding-generation models have improved intent comprehension, they still struggle to accomplish tasks involving complex knowledge reasoning within a single model. Moreover, constrained by static internal priors, these models remain unable to adapt to the evolving dynamics of the real world. To bridge these gaps, we introduce Mind-Brush, a unified agentic framework that transforms generation into a dynamic, knowledge-driven workflow. Simulating a human-like 'think-research-create' paradigm, Mind-Brush actively retrieves multimodal evidence to ground out-of-distribution concepts and employs reasoning tools to resolve implicit visual constraints. To rigorously evaluate these capabilities, we propose Mind-Bench, a comprehensive benchmark comprising 500 distinct samples spanning real-time news, emerging concepts, and domains such as mathematical and Geo-Reasoning. Extensive experiments demonstrate that Mind-Brush significantly enhances the capabilities of unified models, realizing a zero-to-one capability leap for the Qwen-Image baseline on Mind-Bench, while achieving superior results on established benchmarks like WISE and RISE.

Pennello della Mente: Integrazione della Ricerca Cognitiva Agente e del Ragionamento nella Generazione di Immagini

Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

Abstract

Support