ChatPaper.aiChatPaper

REASONEDIT: 추론 기능이 강화된 이미지 편집 모델을 향하여

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

November 27, 2025
저자: Fukun Yin, Shiyu Liu, Yucheng Han, Zhibo Wang, Peng Xing, Rui Wang, Wei Cheng, Yingming Wang, Aojie Li, Zixin Yin, Pengtao Chen, Xiangyu Zhang, Daxin Jiang, Xianfang Zeng, Gang Yu
cs.AI

초록

최근 이미지 편집 모델의 발전은 눈에 띄는 진전을 보여주고 있습니다. Step1X-Edit 및 Qwen-Image-Edit과 같은 시스템에서 볼 수 있듯이, 일반적인 아키텍처 설계는 멀티모달 대형 언어 모델(MLLM) 인코더와 디퓨전 디코더를 결합하는 방식입니다. 여기서 MLLM은 참조 이미지와 지시문을 모두 인코딩하지만 학습 중에는 고정된 상태를 유지합니다. 본 연구에서는 MLLM의 추론 능력을 개방함으로써 편집 모델의 한계를 더욱 확장할 수 있음을 보여줍니다. 구체적으로, 지시문 이해도와 편집 정확도를 향상시키는 두 가지 추론 메커니즘인 사고(thinking)와 성찰(reflection)을 탐구합니다. 이를 바탕으로, 우리가 제안하는 프레임워크는 사고-편집-성찰 루프를 통해 이미지 편집을 가능하게 합니다: 사고 메커니즘은 MLLM의 세계 지식을 활용하여 추상적인 지시문을 해석하는 반면, 성찰은 편집 결과를 검토하고 의도하지 않은 조작을 자동으로 수정하며 종료 라운드를 판별합니다. 폭넓은 실험을 통해 우리의 추론 접근법이 상당한 성능 향상을 달성함을 입증했습니다. Step1X-Edit에서 우리의 DiT를 초기화했을 때(ReasonEdit-S) ImgEdit(+4.3%), GEdit(+4.7%), Kris(+8.2%)에서 개선되었으며, Qwen-Image-Edit과 통합되었을 때(ReasonEdit-Q)에도 GEdit과 Kris 모두에서 기존 오픈소스 방법들을 능가하는 성능을 보였습니다.
English
Recent advances in image editing models have shown remarkable progress. A common architectural design couples a multimodal large language model (MLLM) encoder with a diffusion decoder, as seen in systems such as Step1X-Edit and Qwen-Image-Edit, where the MLLM encodes both the reference image and the instruction but remains frozen during training. In this work, we demonstrate that unlocking the reasoning capabilities of MLLM can further push the boundaries of editing models. Specifically, we explore two reasoning mechanisms, thinking and reflection, which enhance instruction understanding and editing accuracy. Based on that, our proposed framework enables image editing in a thinking-editing-reflection loop: the thinking mechanism leverages the world knowledge of MLLM to interpret abstract instructions, while the reflection reviews editing results, automatically corrects unintended manipulations, and identifies the stopping round. Extensive experiments demonstrate that our reasoning approach achieves significant performance gains, with improvements of ImgEdit (+4.3%), GEdit (+4.7%), and Kris (+8.2%) when initializing our DiT from the Step1X-Edit (ReasonEdit-S), and also outperforms previous open-source methods on both GEdit and Kris when integrated with Qwen-Image-Edit (ReasonEdit-Q).
PDF391December 2, 2025