Vereinheitlichter Denker: Ein universelles Denkmodul als Kernkomponente für die Bildgenerierung
Unified Thinker: A General Reasoning Modular Core for Image Generation
January 6, 2026
papers.authors: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI
papers.abstract
Trotz beeindruckender Fortschritte bei der hochwertigen Bildsynthese haben generative Modelle nach wie vor Schwierigkeiten mit logikintensiver Anweisungsbefolgung, was eine anhaltende Kluft zwischen Schlussfolgerung und Ausführung offenbart. Unterdessen haben geschlossene Systeme (z.B. Nano Banana) eine starke, schlussfolgerungsgesteuerte Bildgenerierung demonstriert, was eine erhebliche Lücke zu aktuellen Open-Source-Modellen aufzeigt. Wir vertreten die Ansicht, dass zum Schließen dieser Lücke nicht nur bessere visuelle Generatoren, sondern ausführbare Schlussfolgerungsprozesse erforderlich sind: die Zerlegung hochrangiger Absichten in fundierte, überprüfbare Pläne, die den Generierungsprozess direkt steuern. Zu diesem Zweck schlagen wir Unified Thinker vor, eine aufgabenagnostische Schlussfolgerungsarchitektur für die allgemeine Bildgenerierung, die als einheitlicher Planungskern konzipiert ist, der in verschiedene Generatoren und Workflows eingebunden werden kann. Unified Thinker entkoppelt einen dedizierten Thinker vom Bild-Generator und ermöglicht so modulare Verbesserungen der Schlussfolgerungsfähigkeit ohne Neutraining des gesamten generativen Modells. Wir führen weiterhin ein zweistufiges Trainingsparadigma ein: Zuerst bauen wir eine strukturierte Planungsschnittstelle für den Thinker auf, dann wenden wir bestärkendes Lernen an, um seine Strategie an Pixel-feedback zu binden, wodurch Pläne gefördert werden, die visuelle Korrektheit über textuelle Plausibilität optimieren. Umfangreiche Experimente zur Text-zu-Bild-Generierung und Bildbearbeitung zeigen, dass Unified Thinker die Bildschlussfolgerung und Generierungsqualität erheblich verbessert.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.