ChatPaper.aiChatPaper

Uniworld-V2: Versterk beeldbewerking met Diffusion Negative-aware Finetuning en MLLM impliciete feedback

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

October 19, 2025
Auteurs: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI

Samenvatting

Instructiegebaseerde beeldbewerking heeft opmerkelijke vooruitgang geboekt; modellen die uitsluitend via supervised fine-tuning zijn getraind, passen zich echter vaak te veel aan geannoteerde patronen aan, wat hun vermogen om buiten de trainingsdistributies te verkennen en te generaliseren belemmert. Om dit aan te pakken, introduceren we Edit-R1, een nieuw post-trainingsframework voor instructiegebaseerde beeldbewerking gebaseerd op beleidsoptimalisatie. Specifiek maken we gebruik van Diffusion Negative-aware Finetuning (DiffusionNFT), een waarschijnlijkheidsvrije beleidsoptimalisatiemethode die consistent is met het flow matching forward-proces, waardoor het gebruik van hogere-orde samplers en efficiëntere training mogelijk wordt. Een andere belangrijke uitdaging hier is het ontbreken van een universeel beloningsmodel, wat voortkomt uit de diverse aard van bewerkingsinstructies en taken. Om deze kloof te overbruggen, zetten we een Multimodaal Taalmodel (MLLM) in als een uniform, trainingsvrij beloningsmodel, waarbij we de output-logits benutten om gedetailleerde feedback te geven. Bovendien ontwerpen we zorgvuldig een laag-variantie groepfilteringsmechanisme om MLLM-scoringsruis te verminderen en de optimalisatie te stabiliseren. UniWorld-V2, getraind met dit framework, behaalt state-of-the-art resultaten op de ImgEdit- en GEdit-Bench benchmarks, met scores van respectievelijk 4.49 en 7.83. Cruciaal is dat ons framework model-agnostisch is, wat aanzienlijke prestatieverbeteringen oplevert wanneer het wordt toegepast op diverse basismodellen zoals Qwen-Image-Edit en FLUX-Kontext, wat de brede toepasbaarheid aantoont. Code en modellen zijn openbaar beschikbaar op https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however, models solely trained via supervised fine-tuning often overfit to annotated patterns, hindering their ability to explore and generalize beyond training distributions. To this end, we introduce Edit-R1, a novel post-training framework for instruction-based image editing based on policy optimization. Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a likelihood-free policy optimization method consistent with the flow matching forward process, thereby enabling the use of higher-order samplers and more efficient training. Another key challenge here is the absence of a universal reward model, resulting from the diverse nature of editing instructions and tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM) as a unified, training-free reward model, leveraging its output logits to provide fine-grained feedback. Furthermore, we carefully design a low-variance group filtering mechanism to reduce MLLM scoring noise and stabilize optimization. UniWorld-V2, trained with this framework, achieves state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks, scoring 4.49 and 7.83, respectively. Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide applicability. Code and models are publicly available at https://github.com/PKU-YuanGroup/UniWorld-V2.
PDF212December 23, 2025