ChatPaper.aiChatPaper

HP-Edit: 이미지 편집을 위한 인간 선호도 기반 사후 학습 프레임워크

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

April 21, 2026
저자: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo
cs.AI

초록

일반적인 이미지 편집 작업은 실제 콘텐츠 편집을 위한 주류 패러다임으로 강력한 생성형 확산 모델을 주로 채택합니다. 한편, Diffusion-DPO 및 Flow-GRPO와 같은 강화 학습(RL) 방법들이 생성 품질을 더욱 향상시켰음에도 불구하고, 인간 피드백 강화 학습(RLHF)을 확산 기반 편집에 효율적으로 적용하는 방법은 확장 가능한 인간 선호도 데이터셋과 다양한 편집 요구에 맞춤화된 프레임워크의 부족으로 인해 아직까지 본격적으로 탐구되지 않았습니다. 이러한 공백을 메우기 위해 우리는 인간 선호도에 정렬된 편집을 위한 사후 학습 프레임워크인 HP-Edit와 8가지 일반적인 작업에 걸친 실제 데이터셋이면서 일반적인 객체 편집 균형을 맞춘 RealPref-50K 데이터셋을 제안합니다. 구체적으로, HP-Edit는 소량의 인간 선호도 점수 데이터와 사전 학습된 시각적 대규모 언어 모델(VLM)을 활용하여 자동화된 인간 선호도 정렬 평가기인 HP-Scorer를 개발합니다. 그런 다음 HP-Scorer를 사용하여 확장 가능한 선호도 데이터셋을 효율적으로 구축하고, 편집 모델을 사후 학습하기 위한 보상 함수로 동시에 활용합니다. 또한 실제 편집 성능을 평가하기 위한 벤치마크인 RealPref-Bench를 소개합니다. 폭넓은 실험을 통해 우리의 접근 방식이 Qwen-Image-Edit-2509와 같은 모델을 크게 향상시켜 출력을 인간의 선호도에 더욱 부합하도록 정렬함을 입증합니다.
English
Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.
PDF31April 23, 2026