Uniworld-V2: Verstärkung der Bildbearbeitung durch Diffusion Negative-aware Finetuning und MLLM implizites Feedback
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
October 19, 2025
papers.authors: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI
papers.abstract
Die instruktionsbasierte Bildbearbeitung hat bemerkenswerte Fortschritte erzielt; jedoch neigen Modelle, die ausschließlich durch überwachtes Feintuning trainiert werden, oft dazu, sich an annotierte Muster anzupassen, was ihre Fähigkeit einschränkt, über die Trainingsverteilungen hinaus zu explorieren und zu generalisieren. Um dies zu adressieren, führen wir Edit-R1 ein, ein neuartiges Post-Training-Framework für instruktionsbasierte Bildbearbeitung, das auf Policy-Optimierung basiert. Konkret nutzen wir Diffusion Negative-aware Finetuning (DiffusionNFT), eine likelihood-freie Policy-Optimierungsmethode, die mit dem Flow-Matching-Vorwärtsprozess konsistent ist, wodurch die Verwendung von höherwertigen Samplern und effizienterem Training ermöglicht wird. Eine weitere zentrale Herausforderung ist das Fehlen eines universellen Belohnungsmodells, das sich aus der Vielfalt der Bearbeitungsanweisungen und -aufgaben ergibt. Um diese Lücke zu schließen, verwenden wir ein Multimodales Großes Sprachmodell (MLLM) als einheitliches, trainingsfreies Belohnungsmodell, das dessen Ausgabe-Logits nutzt, um fein abgestimmtes Feedback zu liefern. Darüber hinaus entwerfen wir sorgfältig einen gruppenbasierten Filtermechanismus mit geringer Varianz, um das Rauschen bei der MLLM-Bewertung zu reduzieren und die Optimierung zu stabilisieren. UniWorld-V2, das mit diesem Framework trainiert wurde, erzielt state-of-the-art Ergebnisse auf den Benchmarks ImgEdit und GEdit-Bench mit Bewertungen von 4,49 bzw. 7,83. Entscheidend ist, dass unser Framework modellagnostisch ist und erhebliche Leistungssteigerungen liefert, wenn es auf verschiedene Basismodelle wie Qwen-Image-Edit und FLUX-Kontext angewendet wird, was seine breite Anwendbarkeit demonstriert. Code und Modelle sind öffentlich verfügbar unter https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however,
models solely trained via supervised fine-tuning often overfit to annotated
patterns, hindering their ability to explore and generalize beyond training
distributions. To this end, we introduce Edit-R1, a novel post-training
framework for instruction-based image editing based on policy optimization.
Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a
likelihood-free policy optimization method consistent with the flow matching
forward process, thereby enabling the use of higher-order samplers and more
efficient training. Another key challenge here is the absence of a universal
reward model, resulting from the diverse nature of editing instructions and
tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM)
as a unified, training-free reward model, leveraging its output logits to
provide fine-grained feedback. Furthermore, we carefully design a low-variance
group filtering mechanism to reduce MLLM scoring noise and stabilize
optimization. UniWorld-V2, trained with this framework, achieves
state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks,
scoring 4.49 and 7.83, respectively. Crucially, our framework is
model-agnostic, delivering substantial performance gains when applied to
diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its
wide applicability. Code and models are publicly available at
https://github.com/PKU-YuanGroup/UniWorld-V2.