ChatPaper.aiChatPaper

REASONEDIT: Auf dem Weg zu modellbasierten Bildbearbeitungssystemen mit erweitertem logischen Denkvermögen

REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

November 27, 2025
papers.authors: Fukun Yin, Shiyu Liu, Yucheng Han, Zhibo Wang, Peng Xing, Rui Wang, Wei Cheng, Yingming Wang, Aojie Li, Zixin Yin, Pengtao Chen, Xiangyu Zhang, Daxin Jiang, Xianfang Zeng, Gang Yu
cs.AI

papers.abstract

Jüngste Fortschritte bei Bildbearbeitungsmodellen haben bemerkenswerte Entwicklungen gezeigt. Ein verbreitetes Architekturdesign kombiniert einen multimodalen Large Language Model (MLLM)-Encoder mit einem Diffusions-Decoder, wie in Systemen wie Step1X-Edit und Qwen-Image-Edit zu sehen ist, bei denen der MLLM sowohl das Referenzbild als auch die Anweisung encodiert, aber während des Trainings eingefroren bleibt. In dieser Arbeit zeigen wir, dass die Freischaltung der Reasoning-Fähigkeiten des MLLM die Grenzen von Bearbeitungsmodellen weiter verschieben kann. Konkret untersuchen wir zwei Reasoning-Mechanismen – Denken und Reflexion –, die das Verständnis von Anweisungen und die Bearbeitungsgenauigkeit verbessern. Darauf aufbauend ermöglicht unser vorgeschlagenes Framework die Bildbearbeitung in einer Denken-Bearbeiten-Reflektieren-Schleife: Der Denk-Mechanismus nutzt das Weltwissen des MLLM zur Interpretation abstrakter Anweisungen, während die Reflexion die Bearbeitungsergebnisse überprüft, unbeabsichtigte Manipulationen automatisch korrigiert und die Beendigungsrunde identifiziert. Umfangreiche Experimente belegen, dass unser Reasoning-Ansatz signifikante Leistungssteigerungen erzielt, mit Verbesserungen von ImgEdit (+4,3 %), GEdit (+4,7 %) und Kris (+8,2 %) bei Initialisierung unserer DiT basierend auf Step1X-Edit (ReasonEdit-S), und auch frühere Open-Source-Methoden auf GEdit und Kris übertrifft, wenn in Qwen-Image-Edit integriert (ReasonEdit-Q).
English
Recent advances in image editing models have shown remarkable progress. A common architectural design couples a multimodal large language model (MLLM) encoder with a diffusion decoder, as seen in systems such as Step1X-Edit and Qwen-Image-Edit, where the MLLM encodes both the reference image and the instruction but remains frozen during training. In this work, we demonstrate that unlocking the reasoning capabilities of MLLM can further push the boundaries of editing models. Specifically, we explore two reasoning mechanisms, thinking and reflection, which enhance instruction understanding and editing accuracy. Based on that, our proposed framework enables image editing in a thinking-editing-reflection loop: the thinking mechanism leverages the world knowledge of MLLM to interpret abstract instructions, while the reflection reviews editing results, automatically corrects unintended manipulations, and identifies the stopping round. Extensive experiments demonstrate that our reasoning approach achieves significant performance gains, with improvements of ImgEdit (+4.3%), GEdit (+4.7%), and Kris (+8.2%) when initializing our DiT from the Step1X-Edit (ReasonEdit-S), and also outperforms previous open-source methods on both GEdit and Kris when integrated with Qwen-Image-Edit (ReasonEdit-Q).
PDF391December 2, 2025