Exploitation de l'apprentissage par renforcement basé sur un vérificateur dans l'édition d'image

Résumé

Alors que l'apprentissage par renforcement à partir de retours humains (RLHF) est devenu un paradigme pivot pour la génération d'images à partir de texte, son application à l'édition d'images reste largement inexplorée. Un goulot d'étranglement majeur est l'absence d'un modèle de récompense général robuste pour toutes les tâches d'édition. Les modèles de récompense existants attribuent généralement des scores globaux sans vérifications détaillées, ignorant les différents impératifs des instructions et entraînant des récompenses biaisées. Pour remédier à cela, nous soutenons que la clé est de passer d'un simple évaluateur à un vérificateur raisonné. Nous présentons Edit-R1, un cadre qui construit un modèle de récompense raisonné (RRM) basé sur un vérificateur à chaîne de pensée (CoT), puis l'utilise pour l'édition d'images en aval. L'Edit-RRM décompose les instructions en principes distincts, évalue l'image modifiée par rapport à chaque principe et agrège ces vérifications en une récompense interprétable et fine. Pour construire un tel RRM, nous appliquons d'abord un réglage fin supervisé (SFT) comme « démarrage à froid » pour générer des trajectoires de récompense CoT. Ensuite, nous introduisons l'optimisation des préférences par contraste de groupe (GCPO), un algorithme d'apprentissage par renforcement qui exploite des données de préférences humaines par paires pour renforcer notre RRM ponctuel. Après avoir construit le RRM, nous utilisons GRPO pour entraîner des modèles d'édition avec ce modèle de récompense non différentiable mais puissant. Des expériences approfondies démontrent que notre Edit-RRM surpasse des modèles de vision et langage (VLM) puissants tels que Seed-1.5-VL et Seed-1.6-VL en tant que modèle de récompense spécifique à l'édition, et nous observons une nette tendance à l'échelle, les performances s'améliorant constamment de 3B à 7B de paramètres. De plus, Edit-R1 apporte des gains à des modèles d'édition comme FLUX.1-kontext, soulignant son efficacité pour améliorer l'édition d'images.

English

While Reinforcement Learning from Human Feedback (RLHF) has become a pivotal paradigm for text-to-image generation, its application to image editing remains largely unexplored. A key bottleneck is the lack of a robust general reward model for all editing tasks. Existing edit reward models usually give overall scores without detailed checks, ignoring different instruction requirements and causing biased rewards. To address this, we argue that the key is to move from a simple scorer to a reasoning verifier. We introduce Edit-R1, a framework that builds a chain-of-thought (CoT) verifier-based reasoning reward model (RRM) and then leverages it for downstream image editing. The Edit-RRM breaks instructions into distinct principles, evaluates the edited image against each principle, and aggregates these checks into an interpretable, fine-grained reward. To build such an RRM, we first apply supervised fine-tuning (SFT) as a ``cold-start'' to generate CoT reward trajectories. Then, we introduce Group Contrastive Preference Optimization (GCPO), a reinforcement learning algorithm that leverages human pairwise preference data to reinforce our pointwise RRM. After building the RRM, we use GRPO to train editing models with this non-differentiable yet powerful reward model. Extensive experiments demonstrate that our Edit-RRM surpasses powerful VLMs such as Seed-1.5-VL and Seed-1.6-VL as an editing-specific reward model, and we observe a clear scaling trend, with performance consistently improving from 3B to 7B parameters. Moreover, Edit-R1 delivers gains to editing models like FLUX.1-kontext, highlighting its effectiveness in enhancing image editing.

Exploitation de l'apprentissage par renforcement basé sur un vérificateur dans l'édition d'image

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Résumé

Support