ChatPaper.aiChatPaper

UniReason 1.0: 세계 지식에 정렬된 이미지 생성 및 편집을 위한 통합 추론 프레임워크

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

February 2, 2026
저자: Dianyi Wang, Chaofan Ma, Feng Han, Size Wu, Wei Song, Yibin Wang, Zhixiong Zhang, Tianhang Wang, Siyuan Wang, Zhongyu Wei, Jiaqi Wang
cs.AI

초록

통합 멀티모달 모델은 깊은 추론을 요구하는 복잡한 합성 작업에서 어려움을 겪으며, 일반적으로 텍스트-이미지 생성과 이미지 편집을 상호 연결된 추론 단계가 아닌 독립된 능력으로 취급합니다. 이를 해결하기 위해 우리는 이중 추론 패러다임을 통해 두 작업을 조화시키는 통합 프레임워크인 UniReason을 제안합니다. 우리는 생성을 암묵적 제약을 주입하기 위한 세계 지식 강화 계획으로 공식화하고, 시각적 오류를 자기 반성을 통해 추가로 수정하기 위한 세분화된 시각 정제를 위해 편집 능력을 활용합니다. 이 접근 방식은 계획 후 정제라는 인간의 인지 과정을 반영하여 생성과 편집을 공유 표현 내에서 통합합니다. 우리는 계획을 위한 5가지 주요 지식 영역(예: 문화적 상식, 물리학 등)을 포괄하는 대규모 추론 중심 데이터셋(약 30만 개 샘플)과 시각적 자기 수정을 위한 에이전트 생성 코퍼스를 체계적으로 구축하여 이 프레임워크를 지원합니다. 폭넓은 실험을 통해 UniReason이 WISE, KrisBench, UniREditBench과 같은 추론 집약적 벤치마크에서 선진적인 성능을 달성하면서도 우수한 일반 합성 능력을 유지함을 입증했습니다.
English
Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.
PDF771March 12, 2026