RewardHarness: Pós-Treinamento Agêntico Auto-Evolutivo
RewardHarness: Self-Evolving Agentic Post-Training
May 9, 2026
Autores: Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen
cs.AI
Resumo
A avaliação de edições de imagens guiadas por instruções requer recompensas que reflitam preferências humanas sutis, mas os modelos de recompensa atuais geralmente dependem de anotação de preferências em larga escala e treinamento adicional de modelos. Isso cria uma lacuna de eficiência de dados: humanos muitas vezes conseguem inferir os critérios de avaliação alvo a partir de apenas alguns exemplos, enquanto modelos são geralmente treinados com centenas de milhares de comparações. Apresentamos o RewardHarness, uma estrutura de recompensa auto-evolutiva baseada em agentes que reformula a modelagem de recompensas como evolução de contexto, em vez de otimização de pesos. Em vez de aprender com anotações em larga escala, o RewardHarness se alinha com as preferências humanas ao evoluir iterativamente uma biblioteca de ferramentas e habilidades a partir de apenas 100 demonstrações de preferência. Dada uma imagem fonte, imagens editadas candidatas e uma instrução de edição, um Orquestrador seleciona o subconjunto mais relevante de ferramentas e habilidades da biblioteca mantida, e um Sub-Agente congelado as utiliza para construir uma cadeia de raciocínio que produz um julgamento de preferência. Ao comparar os julgamentos previstos com as preferências reais e analisar sucessos e falhas no processo de raciocínio, o Orquestrador refina automaticamente sua biblioteca de ferramentas e habilidades sem necessidade de anotação humana adicional. Utilizando apenas 0,05% dos dados de preferência do EditReward, o RewardHarness alcança 47,4% de precisão média em benchmarks de avaliação de edição de imagem, superando o GPT-5 em 5,3 pontos. Quando usado como sinal de recompensa para ajuste fino via GRPO, os modelos ajustados com RL alcançam 3,52 no ImgEdit-Bench. Página do projeto: https://rewardharness.com.
English
Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.