ChatPaper.aiChatPaper

HP-Edit: Посттренировочный фреймворк для редактирования изображений на основе человеческих предпочтений

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

April 21, 2026
Авторы: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo
cs.AI

Аннотация

Распространенные задачи редактирования изображений обычно используют мощные генеративные диффузионные модели в качестве основной парадигмы для редактирования реального контента. В то же время, хотя методы обучения с подкреплением (RL), такие как Diffusion-DPO и Flow-GRPO, дополнительно улучшили качество генерации, эффективное применение обучения с подкреплением на основе человеческих предпочтений (RLHF) для диффузионного редактирования остается малоизученным из-за отсутствия масштабируемых наборов данных о человеческих предпочтениях и фреймворков, адаптированных к разнообразным потребностям редактирования. Чтобы заполнить этот пробел, мы предлагаем HP-Edit — фреймворк пост-обучения для редактирования, согласованного с человеческими предпочтениями, и представляем RealPref-50K, набор реальных данных, охватывающий восемь распространенных задач и сбалансированный по редактированию обычных объектов. В частности, HP-Edit использует небольшое количество данных оценки человеческих предпочтений и предварительно обученную крупную визуальную языковую модель (VLM) для создания HP-Scorer — автоматического оценщика, согласованного с человеческими предпочтениями. Затем мы используем HP-Scorer как для эффективного построения масштабируемого набора данных о предпочтениях, так и в качестве функции вознаграждения для пост-обучения модели редактирования. Мы также представляем RealPref-Bench — бенчмарк для оценки производительности редактирования в реальных условиях. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает модели, такие как Qwen-Image-Edit-2509, лучше согласовывая их выходные данные с человеческими предпочтениями.
English
Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.
PDF31April 23, 2026