RewardHarness: Pós-Treinamento Agêntico Auto-Evolutivo

Resumo

A avaliação de edições de imagens guiadas por instruções requer recompensas que reflitam preferências humanas sutis, mas os modelos de recompensa atuais geralmente dependem de anotação de preferências em larga escala e treinamento adicional de modelos. Isso cria uma lacuna de eficiência de dados: humanos muitas vezes conseguem inferir os critérios de avaliação alvo a partir de apenas alguns exemplos, enquanto modelos são geralmente treinados com centenas de milhares de comparações. Apresentamos o RewardHarness, uma estrutura de recompensa auto-evolutiva baseada em agentes que reformula a modelagem de recompensas como evolução de contexto, em vez de otimização de pesos. Em vez de aprender com anotações em larga escala, o RewardHarness se alinha com as preferências humanas ao evoluir iterativamente uma biblioteca de ferramentas e habilidades a partir de apenas 100 demonstrações de preferência. Dada uma imagem fonte, imagens editadas candidatas e uma instrução de edição, um Orquestrador seleciona o subconjunto mais relevante de ferramentas e habilidades da biblioteca mantida, e um Sub-Agente congelado as utiliza para construir uma cadeia de raciocínio que produz um julgamento de preferência. Ao comparar os julgamentos previstos com as preferências reais e analisar sucessos e falhas no processo de raciocínio, o Orquestrador refina automaticamente sua biblioteca de ferramentas e habilidades sem necessidade de anotação humana adicional. Utilizando apenas 0,05% dos dados de preferência do EditReward, o RewardHarness alcança 47,4% de precisão média em benchmarks de avaliação de edição de imagem, superando o GPT-5 em 5,3 pontos. Quando usado como sinal de recompensa para ajuste fino via GRPO, os modelos ajustados com RL alcançam 3,52 no ImgEdit-Bench. Página do projeto: https://rewardharness.com.

English

Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.