ChatPaper.aiChatPaper

Uniworld-V2: 확산 부정 인식 미세 조정과 MLLM 암시적 피드백을 통한 이미지 편집 강화

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

October 19, 2025
저자: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI

초록

지시 기반 이미지 편집은 놀라운 발전을 이루어 왔지만, 지도 학습을 통해서만 훈련된 모델들은 주석된 패턴에 과적합되는 경향이 있어 훈련 분포를 넘어서는 탐색 및 일반화 능력을 저해합니다. 이를 해결하기 위해, 우리는 정책 최적화를 기반으로 한 새로운 사후 훈련 프레임워크인 Edit-R1을 소개합니다. 구체적으로, 우리는 유사도 없는 정책 최적화 방법인 Diffusion Negative-aware Finetuning (DiffusionNFT)을 활용하여, 흐름 매칭 전방 과정과 일관된 고차 샘플러와 더 효율적인 훈련을 가능하게 합니다. 여기서 또 다른 주요 과제는 다양한 편집 지시와 작업으로 인해 보편적인 보상 모델이 부재하다는 점입니다. 이를 해결하기 위해, 우리는 다중 모드 대형 언어 모델(MLLM)을 통합된 훈련 없는 보상 모델로 사용하여, 출력 로짓을 통해 세밀한 피드백을 제공합니다. 또한, MLLM 점수 잡음을 줄이고 최적화를 안정화하기 위해 저분산 그룹 필터링 메커니즘을 신중하게 설계했습니다. 이 프레임워크로 훈련된 UniWorld-V2는 ImgEdit 및 GEdit-Bench 벤치마크에서 각각 4.49와 7.83의 점수를 기록하며 최첨단 결과를 달성했습니다. 무엇보다도, 우리의 프레임워크는 모델에 구애받지 않으며, Qwen-Image-Edit 및 FLUX-Kontext와 같은 다양한 기본 모델에 적용할 때 상당한 성능 향상을 보여주어 그 광범위한 적용 가능성을 입증했습니다. 코드와 모델은 https://github.com/PKU-YuanGroup/UniWorld-V2에서 공개되어 있습니다.
English
Instruction-based image editing has achieved remarkable progress; however, models solely trained via supervised fine-tuning often overfit to annotated patterns, hindering their ability to explore and generalize beyond training distributions. To this end, we introduce Edit-R1, a novel post-training framework for instruction-based image editing based on policy optimization. Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a likelihood-free policy optimization method consistent with the flow matching forward process, thereby enabling the use of higher-order samplers and more efficient training. Another key challenge here is the absence of a universal reward model, resulting from the diverse nature of editing instructions and tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM) as a unified, training-free reward model, leveraging its output logits to provide fine-grained feedback. Furthermore, we carefully design a low-variance group filtering mechanism to reduce MLLM scoring noise and stabilize optimization. UniWorld-V2, trained with this framework, achieves state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks, scoring 4.49 and 7.83, respectively. Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide applicability. Code and models are publicly available at https://github.com/PKU-YuanGroup/UniWorld-V2.
PDF172October 21, 2025