ChatPaper.aiChatPaper

統一思考者:画像生成のための汎用推論モジュラーコア

Unified Thinker: A General Reasoning Modular Core for Image Generation

January 6, 2026
著者: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI

要旨

高精度な画像合成において目覚ましい進展が見られる一方で、生成的モデルは依然として論理集約的な指示追従に課題を抱え、推論と実行の間の恒久的な隔たりが露呈している。一方、クローズドソースシステム(例:Nano Banana)は推論主導の画像生成で優れた性能を示しており、現在のオープンソースモデルとの間に大きな隔たりがあることを浮き彫りにしている。我々は、この隔たりを埋めるには単により優れた視覚的生成器だけでなく、高次元の意図を接地可能で検証可能な計画へと分解し、生成プロセスを直接導く「実行可能な推論」が必要であると主張する。この目的に向けて、我々は汎用的な画像生成のためのタスク非依存型推論アーキテクチャ「Unified Thinker」を提案する。これは多様な生成器やワークフローに接続可能な統一計画コアとして設計されている。Unified Thinkerは、専用のThinkerを画像Generatorから分離することで、生成モデル全体を再学習することなく推論モジュールのアップグレードを可能にする。さらに、2段階の訓練パラダイムを導入する。まずThinkerのための構造化計画インターフェースを構築し、その後、強化学習を適用してその方策をピクセルレベルのフィードバックに接地する。これにより、テキスト的な尤もらしさではなく視覚的正確さを最適化する計画が促進される。テキストからの画像生成および画像編集における広範な実験により、Unified Thinkerが画像の推論と生成品質を大幅に改善することが示された。
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
PDF72January 16, 2026