UniReason 1.0: Un Quadro di Ragionamento Unificato per la Generazione e Modifica di Immagini Allineate alla Conoscenza del Mondo

Abstract

I modelli multimodali unificati spesso incontrano difficoltà con compiti di sintesi complessi che richiedono ragionamento approfondito e tendono a trattare la generazione di immagini da testo e la modifica delle immagini come capacità isolate piuttosto che come passaggi di ragionamento interconnessi. Per affrontare questa limitazione, proponiamo UniReason, un framework unificato che armonizza questi due compiti attraverso un paradigma di ragionamento duale. Concettualizziamo la generazione come una pianificazione potenziata dalla conoscenza del mondo per iniettare vincoli impliciti e sfruttiamo le capacità di editing per un affinamento visivo granulare, al fine di correggere ulteriormente gli errori visivi tramite auto-riflessione. Questo approccio unifica generazione e editing all'interno di una rappresentazione condivisa, rispecchiando il processo cognitivo umano di pianificazione seguito da raffinamento. Supportiamo questo framework costruendo sistematicamente un dataset su larga scala (~300k campioni) incentrato sul ragionamento, che copre cinque principali domini di conoscenza (ad esempio, senso comune culturale, fisica, ecc.) per la pianificazione, affiancato da un corpus generato da agenti per l'auto-correzione visiva. Esperimenti estensivi dimostrano che UniReason raggiunge prestazioni avanzate su benchmark ad alta intensità di ragionamento come WISE, KrisBench e UniREditBench, mantenendo al contempo capacità di sintesi generale superiori.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.