REASONEDIT: Hacia Modelos de Edición de Imágenes Mejorados con Razonamiento
REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
November 27, 2025
Autores: Fukun Yin, Shiyu Liu, Yucheng Han, Zhibo Wang, Peng Xing, Rui Wang, Wei Cheng, Yingming Wang, Aojie Li, Zixin Yin, Pengtao Chen, Xiangyu Zhang, Daxin Jiang, Xianfang Zeng, Gang Yu
cs.AI
Resumen
Los recientes avances en modelos de edición de imágenes han mostrado un progreso notable. Un diseño arquitectónico común combina un codificador de modelo de lenguaje grande multimodal (MLLM) con un decodificador de difusión, como se observa en sistemas como Step1X-Edit y Qwen-Image-Edit, donde el MLLM codifica tanto la imagen de referencia como la instrucción, pero permanece congelado durante el entrenamiento. En este trabajo, demostramos que desbloquear las capacidades de razonamiento del MLLM puede impulsar aún más los límites de los modelos de edición. Específicamente, exploramos dos mecanismos de razonamiento, *pensamiento* y *reflexión*, que mejoran la comprensión de instrucciones y la precisión de la edición. Con base en esto, nuestro marco propuesto permite la edición de imágenes en un bucle de pensamiento-edición-reflexión: el mecanismo de pensamiento aprovecha el conocimiento del mundo del MLLM para interpretar instrucciones abstractas, mientras que la reflexión revisa los resultados de la edición, corrige automáticamente las manipulaciones no deseadas e identifica la ronda de finalización. Experimentos exhaustivos demuestran que nuestro enfoque de razonamiento logra mejoras significativas de rendimiento, con incrementos de ImgEdit (+4.3%), GEdit (+4.7%) y Kris (+8.2%) al inicializar nuestro DiT desde Step1X-Edit (ReasonEdit-S), y también supera a métodos de código abierto anteriores tanto en GEdit como en Kris cuando se integra con Qwen-Image-Edit (ReasonEdit-Q).
English
Recent advances in image editing models have shown remarkable progress. A common architectural design couples a multimodal large language model (MLLM) encoder with a diffusion decoder, as seen in systems such as Step1X-Edit and Qwen-Image-Edit, where the MLLM encodes both the reference image and the instruction but remains frozen during training. In this work, we demonstrate that unlocking the reasoning capabilities of MLLM can further push the boundaries of editing models. Specifically, we explore two reasoning mechanisms, thinking and reflection, which enhance instruction understanding and editing accuracy. Based on that, our proposed framework enables image editing in a thinking-editing-reflection loop: the thinking mechanism leverages the world knowledge of MLLM to interpret abstract instructions, while the reflection reviews editing results, automatically corrects unintended manipulations, and identifies the stopping round. Extensive experiments demonstrate that our reasoning approach achieves significant performance gains, with improvements of ImgEdit (+4.3%), GEdit (+4.7%), and Kris (+8.2%) when initializing our DiT from the Step1X-Edit (ReasonEdit-S), and also outperforms previous open-source methods on both GEdit and Kris when integrated with Qwen-Image-Edit (ReasonEdit-Q).