ChatPaper.aiChatPaper

Penseur Unifié : Un Cœur Modulaire de Raisonnement Général pour la Génération d'Images

Unified Thinker: A General Reasoning Modular Core for Image Generation

January 6, 2026
papers.authors: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI

papers.abstract

Malgré des progrès impressionnants en synthèse d’images haute fidélité, les modèles génératifs peinent encore à suivre des instructions logiquement complexes, révélant un écart persistant entre raisonnement et exécution. Parallèlement, des systèmes fermés (par exemple, Nano Banana) ont démontré une forte capacité de génération d’images pilotée par le raisonnement, soulignant un écart substantiel avec les modèles open-source actuels. Nous soutenons que combler cet écart nécessite non seulement de meilleurs générateurs visuels, mais aussi un raisonnement exécutable : décomposer les intentions de haut niveau en plans ancrés et vérifiables qui guident directement le processus génératif. À cette fin, nous proposons Unified Thinker, une architecture de raisonnement agnostique aux tâches pour la génération d’images générale, conçue comme un noyau de planification unifié pouvant s’intégrer à divers générateurs et flux de travail. Unified Thinker dissocie un module de raisonnement (Thinker) dédié du générateur d’images (Generator), permettant des mises à niveau modulaires du raisonnement sans réentraîner l’ensemble du modèle génératif. Nous introduisons en outre un paradigme d’apprentissage en deux étapes : nous construisons d’abord une interface de planification structurée pour le Thinker, puis nous appliquons l’apprentissage par renforcement pour ancrer sa politique dans des retours au niveau pixel, encourageant des plans qui optimisent la justesse visuelle plutôt que la vraisemblance textuelle. Des expériences approfondies sur la génération d’images à partir de texte et l’édition d’images montrent qu’Unified Thinker améliore substantiellement le raisonnement et la qualité de génération d’images.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
PDF11January 8, 2026