HP-Edit: Ein Post-Training-Framework für Bildbearbeitung auf Basis menschlicher Präferenzen

Zusammenfassung

Gängige Bildbearbeitungsaufgaben nutzen leistungsstarke generative Diffusionsmodelle als führendes Paradigma für die Bearbeitung realer Inhalte. Während Reinforcement-Learning (RL)-Methoden wie Diffusion-DPO und Flow-GRPO die Generierungsqualität weiter verbessert haben, ist die effiziente Anwendung von Reinforcement Learning from Human Feedback (RLHF) auf diffusionsbasierte Bearbeitung weitgehend unerforscht. Dies liegt vor allem am Mangel an skalierbaren menschlichen Präferenzdatensätzen und Frameworks, die auf diverse Bearbeitungsanforderungen zugeschnitten sind. Um diese Lücke zu schließen, schlagen wir HP-Edit vor, ein Post-Training-Framework für humanpräferenzausgerichtete Bearbeitung, und führen RealPref-50K ein, einen Echtwelt-Datensatz, der acht häufige Aufgaben abdeckt und eine ausgewogene Bearbeitung gängiger Objekte gewährleistet. Konkret nutzt HP-Edit eine kleine Menge menschlicher Präferenz-Bewertungsdaten und ein vortrainiertes visuelles Großsprachmodell (VLM), um HP-Scorer zu entwickeln – einen automatischen, an menschlichen Präferenzen ausgerichteten Bewertungsalgorithmus. Wir verwenden HP-Scorer dann sowohl zum effizienten Aufbau eines skalierbaren Präferenzdatensatzes als auch als Belohnungsfunktion für das Post-Training des Bearbeitungsmodells. Zusätzlich führen wir RealPref-Bench ein, einen Benchmark zur Bewertung der Bearbeitungsleistung in realen Szenarien. Umfangreiche Experimente zeigen, dass unser Ansatz Modelle wie Qwen-Image-Edit-2509 erheblich verbessert und ihre Ausgaben enger an menschliche Präferenzen anpasst.

English

Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.

HP-Edit: Ein Post-Training-Framework für Bildbearbeitung auf Basis menschlicher Präferenzen

HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Zusammenfassung

Support