UniReason 1.0: Een Uniform Redeneerkader voor Wereldkennis-afgestemde Beeldgeneratie en -bewerking

Samenvatting

Unified multimodale modellen hebben vaak moeite met complexe synthetiseringstaken die diepgaand redeneren vereisen, en behandelen tekst-naar-beeldgeneratie en beeldbewerking doorgaans als geïsoleerde capaciteiten in plaats van onderling verbonden redeneerstappen. Om dit aan te pakken, stellen we UniReason voor, een unified framework dat deze twee taken harmoniseert via een duale redeneerparadigma. We formuleren generatie als planning verrijkt met wereldkennis om impliciete beperkingen in te brengen, en benutten bewerkingscapaciteiten voor fijnmazige visuele verfijning om visuele fouten verder te corrigeren via zelfreflectie. Deze aanpak verenigt generatie en bewerking binnen een gedeelde representatie, wat het menselijke cognitieve proces van planning gevolgd door verfijning weerspiegelt. We ondersteunen dit framework door systematisch een grootschalige, op redeneren gerichte dataset (~300k samples) te construeren die vijf belangrijke kennisdomeinen (bijv. culturele commonsense, natuurkunde, etc.) dekt voor planning, naast een door agenten gegenereerd corpus voor visuele zelfcorrectie. Uitgebreide experimenten tonen aan dat UniReason geavanceerde prestaties behaalt op reasoning-intensieve benchmarks zoals WISE, KrisBench en UniREditBench, terwijl het superieure algemene synthesecapaciteiten behoudt.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.

UniReason 1.0: Een Uniform Redeneerkader voor Wereldkennis-afgestemde Beeldgeneratie en -bewerking

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Samenvatting

Support