ChatPaper.aiChatPaper

Unified Thinker: Een Algemene Redeneer-Modulaire Kern voor Beeldgeneratie

Unified Thinker: A General Reasoning Modular Core for Image Generation

January 6, 2026
Auteurs: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI

Samenvatting

Ondanks indrukwekkende vooruitgang in hoogwaardige beeldgeneratie, worstelen generatieve modellen nog steeds met logica-intensieve instructievolging, wat een hardnekkige kloof tussen redeneren en uitvoering blootlegt. Gesloten systemen (zoals Nano Banana) hebben daarentegen sterke reasoning-gestuurde beeldgeneratie gedemonstreerd, wat een aanzienlijke kloof met huidige open-source modellen benadrukt. Wij beargumenteren dat het dichten van deze kloof niet enkel betere visuele generatoren vereist, maar uitvoerbare redenering: het decomponeren van hoogwaardige intenties in gegronde, verifieerbare plannen die het generatieve proces direct sturen. Hiertoe presenteren wij Unified Thinker, een taakonafhankelijke reasoning-architectuur voor algemene beeldgeneratie, ontworpen als een uniforme planningkern die in diverse generatoren en workflows kan worden geïntegreerd. Unified Thinker ontkoppelt een toegewijde Thinker van de beeld-Generator, waardoor modulaire upgrades van redeneervermogen mogelijk zijn zonder het volledige generatieve model te hertrainen. Wij introduceren verder een tweefasen-trainingsparadigma: eerst bouwen we een gestructureerde planninginterface voor de Thinker, waarna we reinforcement learning toepassen om diens beleid te gronden in pixelgebaseerde feedback, waardoor plannen worden gestimuleerd die visuele correctheid boven tekstuele geloofwaardigheid optimaliseren. Uitgebreide experimenten in tekst-naar-beeldgeneratie en beeldbewerking tonen aan dat Unified Thinker de beeldredenering en generatiekwaliteit aanzienlijk verbetert.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
PDF11January 8, 2026