ChatPaper.aiChatPaper

Uniworld-V2: 拡散モデルのネガティブ認識ファインチューニングとMLLM暗黙的フィードバックによる画像編集の強化

Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

October 19, 2025
著者: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI

要旨

指示に基づく画像編集は目覚ましい進歩を遂げているが、教師ありファインチューニングのみで訓練されたモデルは、注釈されたパターンに過剰適合しがちであり、訓練分布を超えた探索や汎化能力を妨げる。この問題に対処するため、我々はポリシー最適化に基づく新しいポストトレーニングフレームワークであるEdit-R1を提案する。具体的には、フローマッチングの順方向プロセスと整合性のある尤度フリーのポリシー最適化手法であるDiffusion Negative-aware Finetuning (DiffusionNFT)を利用し、高次のサンプラーとより効率的な訓練を可能にする。ここでのもう一つの重要な課題は、編集指示やタスクの多様性に起因する普遍的な報酬モデルの欠如である。このギャップを埋めるため、我々はマルチモーダル大規模言語モデル(MLLM)を統一された訓練不要の報酬モデルとして採用し、その出力ロジットを利用して細かいフィードバックを提供する。さらに、MLLMのスコアリングノイズを低減し、最適化を安定化するために、低分散グループフィルタリングメカニズムを慎重に設計した。このフレームワークで訓練されたUniWorld-V2は、ImgEditおよびGEdit-Benchベンチマークでそれぞれ4.49と7.83のスコアを達成し、最先端の結果を実現した。重要なことに、我々のフレームワークはモデルに依存せず、Qwen-Image-EditやFLUX-Kontextなどの多様なベースモデルに適用した際にも大幅な性能向上をもたらし、その広範な適用性を実証している。コードとモデルはhttps://github.com/PKU-YuanGroup/UniWorld-V2で公開されている。
English
Instruction-based image editing has achieved remarkable progress; however, models solely trained via supervised fine-tuning often overfit to annotated patterns, hindering their ability to explore and generalize beyond training distributions. To this end, we introduce Edit-R1, a novel post-training framework for instruction-based image editing based on policy optimization. Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a likelihood-free policy optimization method consistent with the flow matching forward process, thereby enabling the use of higher-order samplers and more efficient training. Another key challenge here is the absence of a universal reward model, resulting from the diverse nature of editing instructions and tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM) as a unified, training-free reward model, leveraging its output logits to provide fine-grained feedback. Furthermore, we carefully design a low-variance group filtering mechanism to reduce MLLM scoring noise and stabilize optimization. UniWorld-V2, trained with this framework, achieves state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks, scoring 4.49 and 7.83, respectively. Crucially, our framework is model-agnostic, delivering substantial performance gains when applied to diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its wide applicability. Code and models are publicly available at https://github.com/PKU-YuanGroup/UniWorld-V2.
PDF172October 21, 2025