RewardHarness : Post-entraînement agentique auto-évolutif

Résumé

L'évaluation des modifications d'images guidées par des instructions nécessite des récompenses reflétant des préférences humaines subtiles, mais les modèles de récompense actuels reposent généralement sur des annotations de préférence à grande échelle et un entraînement supplémentaire du modèle. Cela crée un déficit d'efficacité des données : les humains peuvent souvent déduire les critères d'évaluation cibles à partir de seulement quelques exemples, tandis que les modèles sont généralement entraînés sur des centaines de milliers de comparaisons. Nous présentons RewardHarness, un cadre de récompense agentique auto-évolutif qui reformule la modélisation des récompenses comme une évolution du contexte plutôt qu'une optimisation des poids. Au lieu d'apprendre à partir d'annotations à grande échelle, RewardHarness s'aligne sur les préférences humaines en faisant évoluer itérativement une bibliothèque d'outils et de compétences à partir d'aussi peu que 100 démonstrations de préférence. Étant donné une image source, des images modifiées candidates et une instruction d'édition, un Orchestrateur sélectionne le sous-ensemble le plus pertinent d'outils et de compétences parmi la bibliothèque maintenue, et un Sous-Agent figé les utilise pour construire une chaîne de raisonnement produisant un jugement de préférence. En comparant les jugements prédits avec les préférences de référence et en analysant les succès et les échecs dans le processus de raisonnement, l'Orchestrateur affine automatiquement sa bibliothèque d'outils et de compétences sans annotation humaine supplémentaire. En utilisant seulement 0,05 % des données de préférence d'EditReward, RewardHarness atteint une précision moyenne de 47,4 % sur les benchmarks d'évaluation d'édition d'images, surpassant GPT-5 de 5,3 points. Utilisé comme signal de récompense pour le fine-tuning GRPO, les modèles optimisés par RL atteignent 3,52 sur ImgEdit-Bench. Page du projet : https://rewardharness.com.

English

Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.