ChatPaper.aiChatPaper

UniReason 1.0: Унифицированная система логического вывода для генерации и редактирования изображений, согласованных со знаниями о мире

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

February 2, 2026
Авторы: Dianyi Wang, Chaofan Ma, Feng Han, Size Wu, Wei Song, Yibin Wang, Zhixiong Zhang, Tianhang Wang, Siyuan Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

Аннотация

Унифицированные мультимодальные модели часто испытывают трудности со сложными задачами синтеза, требующими глубоких рассуждений, и обычно рассматривают генерацию изображений по тексту и редактирование изображений как изолированные возможности, а не взаимосвязанные этапы рассуждений. Для решения этой проблемы мы предлагаем UniReason — унифицированную структуру, которая согласует эти две задачи через двойственную парадигму рассуждений. Мы формулируем генерацию как планирование, обогащённое знаниями о мире, для внедрения имплицитных ограничений, и используем возможности редактирования для тонкой визуальной доработки с целью дальнейшего исправления визуальных ошибок через саморефлексию. Этот подход объединяет генерацию и редактирование в рамках общего представления, отражая когнитивный процесс человека, состоящий из планирования и последующего уточнения. Мы поддерживаем эту структуру путём систематического создания крупномасштабного набора данных (~300 тыс. примеров), ориентированного на рассуждения и охватывающего пять основных областей знаний (например, культурные общие знания, физику и т.д.) для планирования, а также корпуса, сгенерированного агентом, для визуальной самокоррекции. Многочисленные эксперименты демонстрируют, что UniReason достигает передовых результатов в тестах, требующих интенсивных рассуждений, таких как WISE, KrisBench и UniREditBench, сохраняя при этом превосходные общие возможности синтеза.
English
Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.
PDF771March 12, 2026