Uniworld-V2: Усиление редактирования изображений с помощью тонкой настройки с учетом негативных аспектов диффузии и неявной обратной связи от MLLM
Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback
October 19, 2025
Авторы: Zongjian Li, Zheyuan Liu, Qihui Zhang, Bin Lin, Shenghai Yuan, Zhiyuan Yan, Yang Ye, Wangbo Yu, Yuwei Niu, Li Yuan
cs.AI
Аннотация
Редактирование изображений на основе инструкций достигло значительных успехов; однако модели, обученные исключительно с помощью контролируемой тонкой настройки, часто переобучаются на аннотированных шаблонах, что ограничивает их способность исследовать и обобщать за пределами обучающих распределений. В связи с этим мы представляем Edit-R1 — новый посттренировочный фреймворк для редактирования изображений на основе инструкций, основанный на оптимизации политик. В частности, мы используем Diffusion Negative-aware Finetuning (DiffusionNFT) — метод оптимизации политик, не требующий вычисления правдоподобия и согласованный с процессом прямого согласования потоков, что позволяет использовать сэмплеры более высокого порядка и более эффективное обучение. Еще одной ключевой проблемой является отсутствие универсальной модели вознаграждения, обусловленное разнообразием инструкций и задач редактирования. Для преодоления этого разрыва мы применяем Мультимодальную Большую Языковую Модель (MLLM) в качестве унифицированной, не требующей обучения модели вознаграждения, используя её выходные логиты для предоставления детализированной обратной связи. Кроме того, мы тщательно разрабатываем механизм фильтрации с низкой дисперсией для снижения шума в оценках MLLM и стабилизации оптимизации. UniWorld-V2, обученная с использованием этого фреймворка, достигает наилучших результатов на бенчмарках ImgEdit и GEdit-Bench, набирая 4.49 и 7.83 балла соответственно. Важно отметить, что наш фреймворк является модельно-независимым, обеспечивая значительное улучшение производительности при применении к различным базовым моделям, таким как Qwen-Image-Edit и FLUX-Kontext, что демонстрирует его широкую применимость. Код и модели доступны по адресу https://github.com/PKU-YuanGroup/UniWorld-V2.
English
Instruction-based image editing has achieved remarkable progress; however,
models solely trained via supervised fine-tuning often overfit to annotated
patterns, hindering their ability to explore and generalize beyond training
distributions. To this end, we introduce Edit-R1, a novel post-training
framework for instruction-based image editing based on policy optimization.
Specifically, we utilize Diffusion Negative-aware Finetuning (DiffusionNFT), a
likelihood-free policy optimization method consistent with the flow matching
forward process, thereby enabling the use of higher-order samplers and more
efficient training. Another key challenge here is the absence of a universal
reward model, resulting from the diverse nature of editing instructions and
tasks. To bridge this gap, we employ a Multimodal Large Language Model (MLLM)
as a unified, training-free reward model, leveraging its output logits to
provide fine-grained feedback. Furthermore, we carefully design a low-variance
group filtering mechanism to reduce MLLM scoring noise and stabilize
optimization. UniWorld-V2, trained with this framework, achieves
state-of-the-art results on the ImgEdit and GEdit-Bench benchmarks,
scoring 4.49 and 7.83, respectively. Crucially, our framework is
model-agnostic, delivering substantial performance gains when applied to
diverse base models like Qwen-Image-Edit and FLUX-Kontext, demonstrating its
wide applicability. Code and models are publicly available at
https://github.com/PKU-YuanGroup/UniWorld-V2.