UniReason 1.0: Ein einheitliches Rahmenwerk für das schlussfolgernde Erzeugen und Bearbeiten von Bildern mit Weltwissen-Ausrichtung

Zusammenfassung

Einheitliche multimodale Modelle haben oft Schwierigkeiten mit komplexen Syntheseaufgaben, die tiefgehendes Schlussfolgern erfordern, und behandeln Text-zu-Bild-Generierung und Bildbearbeitung typischerweise als isolierte Fähigkeiten statt als miteinander verbundene Denkschritte. Um dies zu adressieren, schlagen wir UniReason vor, einen einheitlichen Rahmen, der diese beiden Aufgaben durch ein duales Denkparadigma harmonisiert. Wir formulieren Generierung als planungsbasierte Wissenserweiterung, um implizite Beschränkungen einzuführen, und nutzen Bearbeitungsfähigkeiten zur feinkörnigen visuellen Verfeinerung, um visuelle Fehler durch Selbstreflexion weiter zu korrigieren. Dieser Ansatz vereint Generierung und Bearbeitung innerhalb einer gemeinsamen Repräsentation, was den menschlichen kognitiven Prozess von Planung gefolgt von Verfeinerung widerspiegelt. Wir untermauern diesen Rahmen durch die systematische Erstellung eines groß angelegten, reasoning-zentrierten Datensatzes (~300k Beispiele), der fünf Hauptwissensdomänen (z.B. kulturelles Alltagswissen, Physik etc.) für die Planung abdeckt, sowie eines durch Agenten generierten Korpus für visuelle Selbstkorrektur. Umfangreiche Experimente zeigen, dass UniReason fortschrittliche Leistung auf reasoning-intensiven Benchmarks wie WISE, KrisBench und UniREditBench erzielt, bei gleichzeitiger Aufrechterhaltung überlegener allgemeiner Synthesefähigkeiten.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.

UniReason 1.0: Ein einheitliches Rahmenwerk für das schlussfolgernde Erzeugen und Bearbeiten von Bildern mit Weltwissen-Ausrichtung

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Zusammenfassung

Support