UniReason 1.0: Унифицированная система логического вывода для генерации и редактирования изображений, согласованных со знаниями о мире

Аннотация

Унифицированные мультимодальные модели часто испытывают трудности со сложными задачами синтеза, требующими глубоких рассуждений, и обычно рассматривают генерацию изображений по тексту и редактирование изображений как изолированные возможности, а не взаимосвязанные этапы рассуждений. Для решения этой проблемы мы предлагаем UniReason — унифицированную структуру, которая согласует эти две задачи через двойственную парадигму рассуждений. Мы формулируем генерацию как планирование, обогащённое знаниями о мире, для внедрения имплицитных ограничений, и используем возможности редактирования для тонкой визуальной доработки с целью дальнейшего исправления визуальных ошибок через саморефлексию. Этот подход объединяет генерацию и редактирование в рамках общего представления, отражая когнитивный процесс человека, состоящий из планирования и последующего уточнения. Мы поддерживаем эту структуру путём систематического создания крупномасштабного набора данных (~300 тыс. примеров), ориентированного на рассуждения и охватывающего пять основных областей знаний (например, культурные общие знания, физику и т.д.) для планирования, а также корпуса, сгенерированного агентом, для визуальной самокоррекции. Многочисленные эксперименты демонстрируют, что UniReason достигает передовых результатов в тестах, требующих интенсивных рассуждений, таких как WISE, KrisBench и UniREditBench, сохраняя при этом превосходные общие возможности синтеза.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.

UniReason 1.0: Унифицированная система логического вывода для генерации и редактирования изображений, согласованных со знаниями о мире

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Аннотация

Support