Uniworld-V2 : Renforcement de l'édition d'images par un finetuning négatif-aware basé sur la diffusion et un retour d'information implicite via MLLM
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
October 19, 2025
papers.authors: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI
papers.abstract
L'édition d'images basée sur des instructions a réalisé des progrès remarquables ; cependant, les modèles uniquement entraînés par ajustement fin supervisé sur-ajustent souvent aux motifs annotés, limitant leur capacité à explorer et à généraliser au-delà des distributions d'entraînement. À cette fin, nous introduisons Edit-R1, un nouveau cadre post-entraînement pour l'édition d'images basée sur des instructions, fondé sur l'optimisation de politiques. Plus précisément, nous utilisons le Diffusion Negative-aware Finetuning (DiffusionNFT), une méthode d'optimisation de politique sans vraisemblance, cohérente avec le processus direct de correspondance de flux, permettant ainsi l'utilisation d'échantillonneurs d'ordre supérieur et un entraînement plus efficace. Un autre défi majeur ici est l'absence d'un modèle de récompense universel, résultant de la nature diverse des instructions et des tâches d'édition. Pour combler cette lacune, nous employons un Modèle de Langage Multimodal à Grande Échelle (MLLM) comme modèle de récompense unifié et sans entraînement, exploitant ses logits de sortie pour fournir un retour d'information granulaire. De plus, nous concevons soigneusement un mécanisme de filtrage de groupe à faible variance pour réduire le bruit de notation du MLLM et stabiliser l'optimisation. UniWorld-V2, entraîné avec ce cadre, obtient des résultats de pointe sur les benchmarks ImgEdit et GEdit-Bench, avec des scores de 4,49 et 7,83, respectivement. De manière cruciale, notre cadre est agnostique au modèle, offrant des gains de performance substantiels lorsqu'il est appliqué à divers modèles de base comme Qwen-Image-Edit et FLUX-Kontext, démontrant ainsi sa large applicabilité. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however,
models solely trained via supervised fine-tuning often overfit to annotated
patterns, hindering their ability to explore and generalize beyond training
distributions. To this end, we introduce Edit-R1, a novel post-training
framework for instruction-based image editing based on policy optimization.
Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a
likelihood-free policy optimization method consistent with the flow matching
forward process, thereby enabling the use of higher-order samplers and more
efficient training. Another key challenge here is the absence of a universal
reward model, resulting from the diverse nature of editing instructions and
tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM)
as a unified, training-free reward model, leveraging its output logits to
provide fine-grained feedback. Furthermore, we carefully design a low-variance
group filtering mechanism to reduce MLLM scoring noise and stabilize
optimization. UniWorld-V2, trained with this framework, achieves
state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks,
scoring 4.49 and 7.83, respectively. Crucially, our framework is
model-agnostic, delivering substantial performance gains when applied to
diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its
wide applicability. Code and models are publicly available at
https://github.com/PKU-YuanGroup/UniWorld-V2.