Uniworld-V2: Rafforzare l'editing delle immagini con la messa a punto negativa-aware basata su diffusione e il feedback implicito di MLLM
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
October 19, 2025
Autori: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI
Abstract
L'editing di immagini basato su istruzioni ha raggiunto progressi significativi; tuttavia, i modelli addestrati esclusivamente tramite fine-tuning supervisionato tendono a sovra-adattarsi ai pattern annotati, limitando la loro capacità di esplorare e generalizzare oltre le distribuzioni di addestramento. A tal fine, introduciamo Edit-R1, un nuovo framework post-addestramento per l'editing di immagini basato su istruzioni, fondato sull'ottimizzazione delle policy. Nello specifico, utilizziamo il Diffusion Negative-aware Finetuning (DiffusionNFT), un metodo di ottimizzazione delle policy senza likelihood, coerente con il processo forward di flow matching, consentendo così l'uso di sampler di ordine superiore e un addestramento più efficiente. Un'altra sfida chiave è l'assenza di un modello di reward universale, dovuta alla natura diversificata delle istruzioni e dei compiti di editing. Per colmare questa lacuna, impieghiamo un Multimodal Large Language Model (MLLM) come modello di reward unificato e senza addestramento, sfruttando i suoi logit di output per fornire feedback granulare. Inoltre, progettiamo con cura un meccanismo di filtraggio a bassa varianza per ridurre il rumore nei punteggi MLLM e stabilizzare l'ottimizzazione. UniWorld-V2, addestrato con questo framework, ottiene risultati all'avanguardia sui benchmark ImgEdit e GEdit-Bench, con punteggi rispettivamente di 4.49 e 7.83. È cruciale sottolineare che il nostro framework è model-agnostic, garantendo miglioramenti sostanziali delle prestazioni quando applicato a modelli di base diversi come Qwen-Image-Edit e FLUX-Kontext, dimostrando così la sua ampia applicabilità. Codice e modelli sono disponibili pubblicamente all'indirizzo https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however,
models solely trained via supervised fine-tuning often overfit to annotated
patterns, hindering their ability to explore and generalize beyond training
distributions. To this end, we introduce Edit-R1, a novel post-training
framework for instruction-based image editing based on policy optimization.
Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a
likelihood-free policy optimization method consistent with the flow matching
forward process, thereby enabling the use of higher-order samplers and more
efficient training. Another key challenge here is the absence of a universal
reward model, resulting from the diverse nature of editing instructions and
tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM)
as a unified, training-free reward model, leveraging its output logits to
provide fine-grained feedback. Furthermore, we carefully design a low-variance
group filtering mechanism to reduce MLLM scoring noise and stabilize
optimization. UniWorld-V2, trained with this framework, achieves
state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks,
scoring 4.49 and 7.83, respectively. Crucially, our framework is
model-agnostic, delivering substantial performance gains when applied to
diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its
wide applicability. Code and models are publicly available at
https://github.com/PKU-YuanGroup/UniWorld-V2.