Uniworld-V2: Versterk beeldbewerking met Diffusion Negative-aware Finetuning en MLLM impliciete feedback
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
October 19, 2025
Auteurs: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI
Samenvatting
Instructiegebaseerde beeldbewerking heeft opmerkelijke vooruitgang geboekt; modellen die uitsluitend via supervised fine-tuning zijn getraind, passen zich echter vaak te veel aan geannoteerde patronen aan, wat hun vermogen om buiten de trainingsdistributies te verkennen en te generaliseren belemmert. Om dit aan te pakken, introduceren we Edit-R1, een nieuw post-trainingsframework voor instructiegebaseerde beeldbewerking gebaseerd op beleidsoptimalisatie. Specifiek maken we gebruik van Diffusion Negative-aware Finetuning (DiffusionNFT), een waarschijnlijkheidsvrije beleidsoptimalisatiemethode die consistent is met het flow matching forward-proces, waardoor het gebruik van hogere-orde samplers en efficiëntere training mogelijk wordt. Een andere belangrijke uitdaging hier is het ontbreken van een universeel beloningsmodel, wat voortkomt uit de diverse aard van bewerkingsinstructies en taken. Om deze kloof te overbruggen, zetten we een Multimodaal Taalmodel (MLLM) in als een uniform, trainingsvrij beloningsmodel, waarbij we de output-logits benutten om gedetailleerde feedback te geven. Bovendien ontwerpen we zorgvuldig een laag-variantie groepfilteringsmechanisme om MLLM-scoringsruis te verminderen en de optimalisatie te stabiliseren. UniWorld-V2, getraind met dit framework, behaalt state-of-the-art resultaten op de ImgEdit- en GEdit-Bench benchmarks, met scores van respectievelijk 4.49 en 7.83. Cruciaal is dat ons framework model-agnostisch is, wat aanzienlijke prestatieverbeteringen oplevert wanneer het wordt toegepast op diverse basismodellen zoals Qwen-Image-Edit en FLUX-Kontext, wat de brede toepasbaarheid aantoont. Code en modellen zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however,
models solely trained via supervised fine-tuning often overfit to annotated
patterns, hindering their ability to explore and generalize beyond training
distributions. To this end, we introduce Edit-R1, a novel post-training
framework for instruction-based image editing based on policy optimization.
Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a
likelihood-free policy optimization method consistent with the flow matching
forward process, thereby enabling the use of higher-order samplers and more
efficient training. Another key challenge here is the absence of a universal
reward model, resulting from the diverse nature of editing instructions and
tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM)
as a unified, training-free reward model, leveraging its output logits to
provide fine-grained feedback. Furthermore, we carefully design a low-variance
group filtering mechanism to reduce MLLM scoring noise and stabilize
optimization. UniWorld-V2, trained with this framework, achieves
state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks,
scoring 4.49 and 7.83, respectively. Crucially, our framework is
model-agnostic, delivering substantial performance gains when applied to
diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its
wide applicability. Code and models are publicly available at
https://github.com/PKU-YuanGroup/UniWorld-V2.