HP-Edit: Посттренировочный фреймворк для редактирования изображений на основе человеческих предпочтений

Аннотация

Распространенные задачи редактирования изображений обычно используют мощные генеративные диффузионные модели в качестве основной парадигмы для редактирования реального контента. В то же время, хотя методы обучения с подкреплением (RL), такие как Diffusion-DPO и Flow-GRPO, дополнительно улучшили качество генерации, эффективное применение обучения с подкреплением на основе человеческих предпочтений (RLHF) для диффузионного редактирования остается малоизученным из-за отсутствия масштабируемых наборов данных о человеческих предпочтениях и фреймворков, адаптированных к разнообразным потребностям редактирования. Чтобы заполнить этот пробел, мы предлагаем HP-Edit — фреймворк пост-обучения для редактирования, согласованного с человеческими предпочтениями, и представляем RealPref-50K, набор реальных данных, охватывающий восемь распространенных задач и сбалансированный по редактированию обычных объектов. В частности, HP-Edit использует небольшое количество данных оценки человеческих предпочтений и предварительно обученную крупную визуальную языковую модель (VLM) для создания HP-Scorer — автоматического оценщика, согласованного с человеческими предпочтениями. Затем мы используем HP-Scorer как для эффективного построения масштабируемого набора данных о предпочтениях, так и в качестве функции вознаграждения для пост-обучения модели редактирования. Мы также представляем RealPref-Bench — бенчмарк для оценки производительности редактирования в реальных условиях. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает модели, такие как Qwen-Image-Edit-2509, лучше согласовывая их выходные данные с человеческими предпочтениями.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: Посттренировочный фреймворк для редактирования изображений на основе человеческих предпочтений

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Аннотация

Support