ChatPaper.aiChatPaper

통합적 사고: 이미지 생성을 위한 범용 추론 모듈 코어

Unified Thinker: A General Reasoning Modular Core for Image Generation

January 6, 2026
저자: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI

초록

고품질 이미지 합성 기술이 눈에 띄게 발전했음에도 생성 모델은 여전히 논리 집약적인 지시 수행에 어려움을 겪으며, 지속적인 추론-실행 간극을 드러내고 있습니다. 한편, 클로즈드 소스 시스템(예: Nano Banana)은 강력한 추론 기반 이미지 생성 능력을 입증하며 현재 오픈소스 모델과의 상당한 격차를 부각했습니다. 우리는 이 격차를 해소하려면 더 나은 시각적 생성기뿐만 아니라 실행 가능한 추론, 즉 높은 수준의 의도를 구체적이고 검증 가능한 계획으로 분해하여 생성 과정을 직접 주도하는 능력이 필요하다고 주장합니다. 이를 위해 우리는 일반 이미지 생성을 위한 작업 독립적 추론 아키텍처인 Unified Thinker를 제안합니다. 이는 다양한 생성기 및 워크플로에 연결 가능한 통합 계획 코어로 설계되었습니다. Unified Thinker는 전용 Thinker를 이미지 Generator와 분리하여 생성 모델 전체를 재학습하지 않고도 추론 모듈을 독립적으로 업그레이드할 수 있도록 합니다. 또한 두 단계의 학습 패러다임을 도입했습니다: 먼저 Thinker를 위한 구조화된 계획 인터페이스를 구축한 후, 강화 학습을 적용하여 정책을 픽셀 수준의 피드백에 기반하도록 하여, 텍스트적 타당성보다 시각적 정확도를 최적화하는 계획을 장려합니다. 텍스트-이미지 생성 및 이미지 편집에 대한 폭넓은 실험을 통해 Unified Thinker가 이미지 추론 및 생성 품질을 크게 향상시킴을 확인했습니다.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
PDF72January 16, 2026