ChatPaper.aiChatPaper

REASONEDIT : Vers des modèles d'édition d'image à capacité de raisonnement renforcée

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

November 27, 2025
papers.authors: Fukun Yin, Shiyu Liu, Yucheng Han, Zhibo Wang, Peng Xing, Rui Wang, Wei Cheng, Yingming Wang, Aojie Li, Zixin Yin, Pengtao Chen, Xiangyu Zhang, Daxin Jiang, Xianfang Zeng, Gang Yu
cs.AI

papers.abstract

Les progrès récents des modèles d'édition d'images ont montré des avancées remarquables. Une conception architecturale courante couple un encodeur de modèle de langage multimodal (MLLM) avec un décodeur à diffusion, comme on le voit dans des systèmes tels que Step1X-Edit et Qwen-Image-Edit, où le MLLM encode à la fois l'image de référence et l'instruction mais reste figé pendant l'entraînement. Dans ce travail, nous démontrons que déverrouiller les capacités de raisonnement du MLLM peut repousser encore les limites des modèles d'édition. Plus précisément, nous explorons deux mécanismes de raisonnement, la réflexion et l'auto-évaluation, qui améliorent la compréhension des instructions et la précision de l'édition. Sur cette base, notre cadre proposé permet l'édition d'images dans une boucle réflexion-édition-auto-évaluation : le mécanisme de réflexion exploite les connaissances mondiales du MLLM pour interpréter des instructions abstraites, tandis que l'auto-évaluation examine les résultats de l'édition, corrige automatiquement les manipulations non souhaitées et identifie le cycle d'arrêt. Des expériences approfondies démontrent que notre approche par raisonnement obtient des gains de performance significatifs, avec des améliorations de ImgEdit (+4,3 %), GEdit (+4,7 %) et Kris (+8,2 %) lors de l'initialisation de notre DiT à partir de Step1X-Edit (ReasonEdit-S), et surpasse également les méthodes open-source précédentes à la fois sur GEdit et Kris lorsqu'elle est intégrée à Qwen-Image-Edit (ReasonEdit-Q).
English
Recent advances in image editing models have shown remarkable progress. A common architectural design couples a multimodal large language model (MLLM) encoder with a diffusion decoder, as seen in systems such as Step1X-Edit and Qwen-Image-Edit, where the MLLM encodes both the reference image and the instruction but remains frozen during training. In this work, we demonstrate that unlocking the reasoning capabilities of MLLM can further push the boundaries of editing models. Specifically, we explore two reasoning mechanisms, thinking and reflection, which enhance instruction understanding and editing accuracy. Based on that, our proposed framework enables image editing in a thinking-editing-reflection loop: the thinking mechanism leverages the world knowledge of MLLM to interpret abstract instructions, while the reflection reviews editing results, automatically corrects unintended manipulations, and identifies the stopping round. Extensive experiments demonstrate that our reasoning approach achieves significant performance gains, with improvements of ImgEdit (+4.3%), GEdit (+4.7%), and Kris (+8.2%) when initializing our DiT from the Step1X-Edit (ReasonEdit-S), and also outperforms previous open-source methods on both GEdit and Kris when integrated with Qwen-Image-Edit (ReasonEdit-Q).
PDF391December 2, 2025