RewardHarness: 自己進化型エージェント的ポストトレーニング
RewardHarness: Self-Evolving Agentic Post-Training
May 9, 2026
著者: Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen
cs.AI
要旨
指示に基づく画像編集を評価するには、微妙な人間の選好を反映する報酬が必要であるが、現在の報酬モデルは通常、大規模な選好アノテーションと追加のモデル学習に依存している。これによりデータ効率のギャップが生じる。すなわち、人間はわずかな例から対象となる評価基準を推測できるのに対し、モデルは通常、数十万の比較で学習される。本稿では、報酬モデリングを重み最適化ではなくコンテキスト進化として捉え直す、自己進化型エージェント報酬フレームワークRewardHarnessを提案する。大規模なアノテーションから学習する代わりに、RewardHarnessはわずか100個の選好デモンストレーションからツールとスキルのライブラリを反復的に進化させることで、人間の選好と整合する。元画像、候補となる編集済み画像、編集指示が与えられると、Orchestratorが維持されているライブラリから最も関連性の高いツールとスキルのサブセットを選択し、凍結されたSub-Agentがそれらを用いて推論連鎖を構築し、選好判断を生成する。予測された判断と正解の選好を比較し、推論プロセスにおける成功と失敗を分析することで、Orchestratorは追加の人間によるアノテーションなしにツールとスキルのライブラリを自動的に洗練する。EditReward選好データのわずか0.05%を使用して、RewardHarnessは画像編集評価ベンチマークにおいて平均精度47.4%を達成し、GPT-5を5.3ポイント上回る。GRPOファインチューニングの報酬信号として使用された場合、RLチューニングされたモデルはImgEdit-Benchで3.52を達成する。プロジェクトページ: https://rewardharness.com。
English
Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.