UniReason 1.0: Uma Estrutura de Raciocínio Unificada para Geração e Edição de Imagens Alinhadas com Conhecimento Mundial

Resumo

Os modelos multimodais unificados frequentemente lutam com tarefas de síntese complexas que exigem raciocínio profundo, tratando tipicamente a geração de texto para imagem e a edição de imagens como capacidades isoladas, em vez de etapas interconectadas de raciocínio. Para resolver isso, propomos o UniReason, uma estrutura unificada que harmoniza essas duas tarefas através de um paradigma de raciocínio duplo. Formulamos a geração como planejamento aprimorado por conhecimento mundial para injetar restrições implícitas, e aproveitamos as capacidades de edição para refinamento visual de granularidade fina, corrigindo ainda mais erros visuais através da autorreflexão. Esta abordagem unifica geração e edição dentro de uma representação compartilhada, espelhando o processo cognitivo humano de planejamento seguido por refinamento. Suportamos esta estrutura através da construção sistemática de um conjunto de dados de grande escala centrado no raciocínio (~300 mil amostras) abrangendo cinco domínios principais de conhecimento (por exemplo, senso cultural comum, física, etc.) para planejamento, juntamente com um corpus gerado por agente para autocorreção visual. Experimentos extensivos demonstram que o UniReason alcança desempenho avançado em benchmarks intensivos em raciocínio, como WISE, KrisBench e UniREditBench, mantendo capacidades gerais de síntese superiores.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.

UniReason 1.0: Uma Estrutura de Raciocínio Unificada para Geração e Edição de Imagens Alinhadas com Conhecimento Mundial

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Resumo

Support