ChatPaper.aiChatPaper

Uniworld-V2: Rafforzare l'editing delle immagini con la messa a punto negativa-aware basata su diffusione e il feedback implicito di MLLM

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

October 19, 2025
Autori: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI

Abstract

L'editing di immagini basato su istruzioni ha raggiunto progressi significativi; tuttavia, i modelli addestrati esclusivamente tramite fine-tuning supervisionato tendono a sovra-adattarsi ai pattern annotati, limitando la loro capacità di esplorare e generalizzare oltre le distribuzioni di addestramento. A tal fine, introduciamo Edit-R1, un nuovo framework post-addestramento per l'editing di immagini basato su istruzioni, fondato sull'ottimizzazione delle policy. Nello specifico, utilizziamo il Diffusion Negative-aware Finetuning (DiffusionNFT), un metodo di ottimizzazione delle policy senza likelihood, coerente con il processo forward di flow matching, consentendo così l'uso di sampler di ordine superiore e un addestramento più efficiente. Un'altra sfida chiave è l'assenza di un modello di reward universale, dovuta alla natura diversificata delle istruzioni e dei compiti di editing. Per colmare questa lacuna, impieghiamo un Multimodal Large Language Model (MLLM) come modello di reward unificato e senza addestramento, sfruttando i suoi logit di output per fornire feedback granulare. Inoltre, progettiamo con cura un meccanismo di filtraggio a bassa varianza per ridurre il rumore nei punteggi MLLM e stabilizzare l'ottimizzazione. UniWorld-V2, addestrato con questo framework, ottiene risultati all'avanguardia sui benchmark ImgEdit e GEdit-Bench, con punteggi rispettivamente di 4.49 e 7.83. È cruciale sottolineare che il nostro framework è model-agnostic, garantendo miglioramenti sostanziali delle prestazioni quando applicato a modelli di base diversi come Qwen-Image-Edit e FLUX-Kontext, dimostrando così la sua ampia applicabilità. Codice e modelli sono disponibili pubblicamente all'indirizzo https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however, models solely trained via supervised fine-tuning often overfit to annotated patterns, hindering their ability to explore and generalize beyond training distributions. To this end, we introduce Edit-R1, a novel post-training framework for instruction-based image editing based on policy optimization. Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a likelihood-free policy optimization method consistent with the flow matching forward process, thereby enabling the use of higher-order samplers and more efficient training. Another key challenge here is the absence of a universal reward model, resulting from the diverse nature of editing instructions and tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM) as a unified, training-free reward model, leveraging its output logits to provide fine-grained feedback. Furthermore, we carefully design a low-variance group filtering mechanism to reduce MLLM scoring noise and stabilize optimization. UniWorld-V2, trained with this framework, achieves state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks, scoring 4.49 and 7.83, respectively. Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide applicability. Code and models are publicly available at https://github.com/PKU-YuanGroup/UniWorld-V2.
PDF172October 21, 2025