UniReason 1.0: Un Marco de Razonamiento Unificado para la Generación y Edición de Imágenes Alineadas con el Conocimiento Mundial

Resumen

Los modelos multimodales unificados a menudo presentan dificultades en tareas de síntesis complejas que requieren razonamiento profundo, y generalmente tratan la generación de texto a imagen y la edición de imágenes como capacidades aisladas en lugar de pasos de razonamiento interconectados. Para abordar esta limitación, proponemos UniReason, un marco unificado que armoniza estas dos tareas mediante un paradigma de razonamiento dual. Formulamos la generación como una planificación potenciada por conocimiento del mundo para inyectar restricciones implícitas, y aprovechamos las capacidades de edición para un refinamiento visual de grano fino que corrige errores visuales mediante la autorreflexión. Este enfoque unifica la generación y la edición dentro de una representación compartida, reflejando el proceso cognitivo humano de planificación seguida de refinamiento. Sostenemos este marco mediante la construcción sistemática de un conjunto de datos a gran escala centrado en el razonamiento (~300k muestras) que cubre cinco dominios principales de conocimiento (por ejemplo, sentido común cultural, física, etc.) para la planificación, junto con un corpus generado por agentes para la autocorrección visual. Experimentos exhaustivos demuestran que UniReason logra un rendimiento avanzado en benchmarks intensivos en razonamiento como WISE, KrisBench y UniREditBench, manteniendo al mismo tiempo capacidades de síntesis general superiores.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.