Uniworld-V2 : Renforcement de l'édition d'images par un finetuning négatif-aware basé sur la diffusion et un retour d'information implicite via MLLM

papers.abstract

L'édition d'images basée sur des instructions a réalisé des progrès remarquables ; cependant, les modèles uniquement entraînés par ajustement fin supervisé sur-ajustent souvent aux motifs annotés, limitant leur capacité à explorer et à généraliser au-delà des distributions d'entraînement. À cette fin, nous introduisons Edit-R1, un nouveau cadre post-entraînement pour l'édition d'images basée sur des instructions, fondé sur l'optimisation de politiques. Plus précisément, nous utilisons le Diffusion Negative-aware Finetuning (DiffusionNFT), une méthode d'optimisation de politique sans vraisemblance, cohérente avec le processus direct de correspondance de flux, permettant ainsi l'utilisation d'échantillonneurs d'ordre supérieur et un entraînement plus efficace. Un autre défi majeur ici est l'absence d'un modèle de récompense universel, résultant de la nature diverse des instructions et des tâches d'édition. Pour combler cette lacune, nous employons un Modèle de Langage Multimodal à Grande Échelle (MLLM) comme modèle de récompense unifié et sans entraînement, exploitant ses logits de sortie pour fournir un retour d'information granulaire. De plus, nous concevons soigneusement un mécanisme de filtrage de groupe à faible variance pour réduire le bruit de notation du MLLM et stabiliser l'optimisation. UniWorld-V2, entraîné avec ce cadre, obtient des résultats de pointe sur les benchmarks ImgEdit et GEdit-Bench, avec des scores de 4,49 et 7,83, respectivement. De manière cruciale, notre cadre est agnostique au modèle, offrant des gains de performance substantiels lorsqu'il est appliqué à divers modèles de base comme Qwen-Image-Edit et FLUX-Kontext, démontrant ainsi sa large applicabilité. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/PKU-YuanGroup/UniWorld-V2.

English

Instruction-based image editing has achieved remarkable progress; however, models solely trained via supervised fine-tuning often overfit to annotated patterns, hindering their ability to explore and generalize beyond training distributions. To this end, we introduce Edit-R1, a novel post-training framework for instruction-based image editing based on policy optimization. Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a likelihood-free policy optimization method consistent with the flow matching forward process, thereby enabling the use of higher-order samplers and more efficient training. Another key challenge here is the absence of a universal reward model, resulting from the diverse nature of editing instructions and tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM) as a unified, training-free reward model, leveraging its output logits to provide fine-grained feedback. Furthermore, we carefully design a low-variance group filtering mechanism to reduce MLLM scoring noise and stabilize optimization. UniWorld-V2, trained with this framework, achieves state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks, scoring 4.49 and 7.83, respectively. Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide applicability. Code and models are publicly available at https://github.com/PKU-YuanGroup/UniWorld-V2.

Uniworld-V2 : Renforcement de l'édition d'images par un finetuning négatif-aware basé sur la diffusion et un retour d'information implicite via MLLM

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

papers.abstract

Support