ChatPaper.aiChatPaper

Pensador Unificado: Um Núcleo Modular de Raciocínio Geral para Geração de Imagens

Unified Thinker: A General Reasoning Modular Core for Image Generation

January 6, 2026
Autores: Sashuai Zhou, Qiang Zhou, Jijin Hu, Hanqing Yang, Yue Cao, Junpeng Ma, Yinchao Ma, Jun Song, Tiezheng Ge, Cheng Yu, Bo Zheng, Zhou Zhao
cs.AI

Resumo

Apesar dos avanços impressionantes na síntese de imagens de alta fidelidade, os modelos generativos ainda lutam para seguir instruções que exigem grande carga lógica, expondo uma lacuna persistente entre raciocínio e execução. Entretanto, sistemas de código fechado (por exemplo, Nano Banana) demonstraram uma geração de imagens fortemente orientada por raciocínio, destacando uma diferença substancial em relação aos modelos atuais de código aberto. Argumentamos que fechar essa lacuna requer não apenas melhores geradores visuais, mas um raciocínio executável: decompor intenções de alto nível em planos fundamentados e verificáveis que orientam diretamente o processo generativo. Para esse fim, propomos o Unified Thinker, uma arquitetura de raciocínio agnóstica a tarefas para geração geral de imagens, projetada como um núcleo de planejamento unificado que pode ser integrado a diversos geradores e fluxos de trabalho. O Unified Thinker desacopla um módulo Thinker dedicado do Gerador de imagens, permitindo atualizações modulares do raciocínio sem precisar retreinar todo o modelo generativo. Introduzimos ainda um paradigma de treinamento em dois estágios: primeiro, construímos uma interface de planejamento estruturado para o Thinker e, em seguida, aplicamos aprendizado por reforço para fundamentar sua política em feedback a nível de pixel, incentivando planos que otimizam a correção visual em vez da plausibilidade textual. Experimentos extensos em geração de texto para imagem e edição de imagem mostram que o Unified Thinker melhora substancialmente o raciocínio sobre a imagem e a qualidade da geração.
English
Despite impressive progress in high-fidelity image synthesis, generative models still struggle with logic-intensive instruction following, exposing a persistent reasoning--execution gap. Meanwhile, closed-source systems (e.g., Nano Banana) have demonstrated strong reasoning-driven image generation, highlighting a substantial gap to current open-source models. We argue that closing this gap requires not merely better visual generators, but executable reasoning: decomposing high-level intents into grounded, verifiable plans that directly steer the generative process. To this end, we propose Unified Thinker, a task-agnostic reasoning architecture for general image generation, designed as a unified planning core that can plug into diverse generators and workflows. Unified Thinker decouples a dedicated Thinker from the image Generator, enabling modular upgrades of reasoning without retraining the entire generative model. We further introduce a two-stage training paradigm: we first build a structured planning interface for the Thinker, then apply reinforcement learning to ground its policy in pixel-level feedback, encouraging plans that optimize visual correctness over textual plausibility. Extensive experiments on text-to-image generation and image editing show that Unified Thinker substantially improves image reasoning and generation quality.
PDF82March 6, 2026