Pensatore Unificato: Un Nucleo Modulare di Ragionamento Generale per la Generazione di Immagini
Unified Thinker: A General Reasoning Modular Core for Image Generation
January 6, 2026
Autori: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI
Abstract
Nonostante i notevoli progressi nella sintesi di immagini ad alta fedeltà, i modelli generativi continuano a incontrare difficoltà nel seguire istruzioni ad alta intensità logica, rivelando un persistente divario tra ragionamento ed esecuzione. Nel frattempo, sistemi closed-source (ad esempio, Nano Banana) hanno dimostrato capacità avanzate di generazione di immagini guidata dal ragionamento, evidenziando un divario sostanziale rispetto agli attuali modelli open-source. Sosteniamo che colmare questo divario richieda non solo generatori visivi migliori, ma un *ragionamento eseguibile*: scomporre intenzioni di alto livello in piani fondati e verificabili che guidino direttamente il processo generativo. A tal fine, proponiamo Unified Thinker, un'architettura di ragionamento indipendente dal compito per la generazione generale di immagini, concepita come un nucleo di pianificazione unificato che può essere integrato in generatori e flussi di lavoro diversi. Unified Thinker disaccoppia un Thinker dedicato dal Generatore di immagini, consentendo aggiornamenti modulari del ragionamento senza dover riaddestrare l'intero modello generativo. Introduciamo inoltre un paradigma di addestramento in due fasi: prima costruiamo un'interfaccia di pianificazione strutturata per il Thinker, poi applichiamo l'apprendimento per rinforzo per fondare la sua politica su feedback a livello di pixel, incentivando piani che ottimizzano la correttezza visiva rispetto alla plausibilità testuale. Esperimenti estesi sulla generazione di immagini da testo e sul photoediting dimostrano che Unified Thinker migliora sostanzialmente la qualità del ragionamento e della generazione delle immagini.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.