RewardHarness: Zelf-evoluerende Agentische Post-training

Samenvatting

Het evalueren van instructiegestuurde beeldbewerkingen vereist beloningen die subtiele menselijke voorkeuren weerspiegelen, maar huidige beloningsmodellen zijn doorgaans afhankelijk van grootschalige voorkeursannotaties en extra modeltraining. Dit creëert een dataverschil: mensen kunnen vaak de beoogde evaluatiecriteria afleiden uit slechts enkele voorbeelden, terwijl modellen doorgaans worden getraind op honderdduizenden vergelijkingen. Wij presenteren RewardHarness, een zelf-evoluerend agentisch beloningskader dat beloningsmodellering herformuleert als contextevologie in plaats van gewichtsoptimalisatie. In plaats van te leren van grootschalige annotaties, stemt RewardHarness af op menselijke voorkeuren door iteratief een bibliotheek van hulpmiddelen en vaardigheden te evolueren op basis van slechts 100 voorkeursdemonstraties. Gegeven een bronafbeelding, kandidaat-bewerkte afbeeldingen en een bewerkingsinstructie, selecteert een Orchestrator de meest relevante subset van hulpmiddelen en vaardigheden uit de onderhouden bibliotheek, en een bevroren Sub-Agent gebruikt deze om een redeneringsketen op te bouwen die een voorkeursbeoordeling oplevert. Door voorspelde beoordelingen te vergelijken met grondwaarheidsvoorkeuren en successen en mislukkingen in het redeneringsproces te analyseren, verfijnt de Orchestrator automatisch zijn bibliotheek van hulpmiddelen en vaardigheden zonder extra menselijke annotatie. Met slechts 0,05% van de EditReward-voorkeursgegevens behaalt RewardHarness 47,4% gemiddelde nauwkeurigheid op evaluatiebenchmarks voor beeldbewerking, waarmee het GPT-5 met 5,3 punten overtreft. Wanneer gebruikt als beloningssignaal voor GRPO-fine-tuning, behalen met RL getunede modellen een score van 3,52 op ImgEdit-Bench. Projectpagina: https://rewardharness.com.

English

Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.