ChatPaper.aiChatPaper

Uniworld-V2: Refuerzo de la edición de imágenes con ajuste fino negativo consciente de difusión y retroalimentación implícita de MLLM

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

October 19, 2025
Autores: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI

Resumen

La edición de imágenes basada en instrucciones ha logrado avances notables; sin embargo, los modelos entrenados únicamente mediante ajuste fino supervisado suelen sobreajustarse a los patrones anotados, lo que dificulta su capacidad para explorar y generalizar más allá de las distribuciones de entrenamiento. Para abordar este problema, presentamos Edit-R1, un marco novedoso de posentrenamiento para la edición de imágenes basada en instrucciones, fundamentado en la optimización de políticas. Específicamente, utilizamos Diffusion Negative-aware Finetuning (DiffusionNFT), un método de optimización de políticas sin verosimilitud que es consistente con el proceso de avance de emparejamiento de flujo, lo que permite el uso de muestreadores de orden superior y un entrenamiento más eficiente. Otro desafío clave es la ausencia de un modelo de recompensa universal, resultado de la naturaleza diversa de las instrucciones y tareas de edición. Para cerrar esta brecha, empleamos un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) como un modelo de recompensa unificado y sin necesidad de entrenamiento, aprovechando sus logits de salida para proporcionar retroalimentación detallada. Además, diseñamos cuidadosamente un mecanismo de filtrado de grupo de baja varianza para reducir el ruido en la puntuación del MLLM y estabilizar la optimización. UniWorld-V2, entrenado con este marco, alcanza resultados de vanguardia en los benchmarks ImgEdit y GEdit-Bench, con puntuaciones de 4.49 y 7.83, respectivamente. Es crucial destacar que nuestro marco es independiente del modelo, ofreciendo mejoras sustanciales en el rendimiento cuando se aplica a diversos modelos base como Qwen-Image-Edit y FLUX-Kontext, demostrando su amplia aplicabilidad. El código y los modelos están disponibles públicamente en https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however, models solely trained via supervised fine-tuning often overfit to annotated patterns, hindering their ability to explore and generalize beyond training distributions. To this end, we introduce Edit-R1, a novel post-training framework for instruction-based image editing based on policy optimization. Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a likelihood-free policy optimization method consistent with the flow matching forward process, thereby enabling the use of higher-order samplers and more efficient training. Another key challenge here is the absence of a universal reward model, resulting from the diverse nature of editing instructions and tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM) as a unified, training-free reward model, leveraging its output logits to provide fine-grained feedback. Furthermore, we carefully design a low-variance group filtering mechanism to reduce MLLM scoring noise and stabilize optimization. UniWorld-V2, trained with this framework, achieves state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks, scoring 4.49 and 7.83, respectively. Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide applicability. Code and models are publicly available at https://github.com/PKU-YuanGroup/UniWorld-V2.
PDF172October 21, 2025