ChatPaper.aiChatPaper

REASONEDIT: Naar Redeneerversterkte Beeldbewerkingsmodellen

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

November 27, 2025
Auteurs: Fukun Yin, Shiyu Liu, Yucheng Han, Zhibo Wang, Peng Xing, Rui Wang, Wei Cheng, Yingming Wang, Aojie Li, Zixin Yin, Pengtao Chen, Xiangyu Zhang, Daxin Jiang, Xianfang Zeng, Gang Yu
cs.AI

Samenvatting

Recente vooruitgang in beeldbewerkingsmodellen heeft opmerkelijke vorderingen getoond. Een veelvoorkomend ontwerp koppelt een multimodaal groot taalmodel (MLLM) als encoder aan een diffusion-decoder, zoals te zien is in systemen als Step1X-Edit en Qwen-Image-Edit, waarbij het MLLM zowel het referentiebeeld als de instructie codeert maar tijdens de training bevroren blijft. In dit werk tonen we aan dat het ontgrendelen van de redeneercapaciteiten van het MLLM de grenzen van bewerkingsmodellen verder kan verleggen. Specifiek onderzoeken we twee redeneermechanismen, denken en reflectie, die het instructiebegrip en de bewerkingsnauwkeurigheid verbeteren. Hierop voortbordurend stelt ons voorgestelde framework beeldbewerking mogelijk in een denk-bewerk-reflectie-lus: het denkmechanisme benut de wereldkennis van het MLLM om abstracte instructies te interpreteren, terwijl de reflectie de bewerkingsresultaten beoordeelt, onbedoelde manipulaties automatisch corrigeert en de eindronde identificeert. Uitgebreide experimenten tonen aan dat onze redeneeraanpak significante prestatieverbeteringen bereikt, met verbeteringen van ImgEdit (+4,3%), GEdit (+4,7%) en Kris (+8,2%) wanneer we onze DiT initialiseren vanuit Step1X-Edit (ReasonEdit-S), en ook de vorige open-source methoden overtreft op zowel GEdit als Kris wanneer geïntegreerd met Qwen-Image-Edit (ReasonEdit-Q).
English
Recent advances in image editing models have shown remarkable progress. A common architectural design couples a multimodal large language model (MLLM) encoder with a diffusion decoder, as seen in systems such as Step1X-Edit and Qwen-Image-Edit, where the MLLM encodes both the reference image and the instruction but remains frozen during training. In this work, we demonstrate that unlocking the reasoning capabilities of MLLM can further push the boundaries of editing models. Specifically, we explore two reasoning mechanisms, thinking and reflection, which enhance instruction understanding and editing accuracy. Based on that, our proposed framework enables image editing in a thinking-editing-reflection loop: the thinking mechanism leverages the world knowledge of MLLM to interpret abstract instructions, while the reflection reviews editing results, automatically corrects unintended manipulations, and identifies the stopping round. Extensive experiments demonstrate that our reasoning approach achieves significant performance gains, with improvements of ImgEdit (+4.3%), GEdit (+4.7%), and Kris (+8.2%) when initializing our DiT from the Step1X-Edit (ReasonEdit-S), and also outperforms previous open-source methods on both GEdit and Kris when integrated with Qwen-Image-Edit (ReasonEdit-Q).
PDF391December 2, 2025