RewardHarness: 자기 진화적 에이전트 사후 훈련
RewardHarness: Self-Evolving Agentic Post-Training
May 9, 2026
저자: Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen
cs.AI
초록
명령 기반 이미지 편집 평가에는 미묘한 인간 선호도를 반영하는 보상이 필요하지만, 현재의 보상 모델은 일반적으로 대규모 선호도 주석과 추가 모델 학습에 의존한다. 이는 데이터 효율성의 격차를 발생시킨다. 인간은 소수의 예시만으로도 목표 평가 기준을 추론할 수 있는 반면, 모델은 보통 수십만 건의 비교 데이터로 학습된다. 본 논문에서는 보상 모델링을 가중치 최적화가 아닌 맥락 진화로 재정의하는 자기 진화형 에이전트 보상 프레임워크인 RewardHarness를 제안한다. RewardHarness는 대규모 주석 데이터로 학습하는 대신, 최소 100개의 선호도 시연 데이터에서 도구 및 스킬 라이브러리를 반복적으로 진화시켜 인간 선호도와 정렬된다. 소스 이미지, 후보 편집 이미지, 편집 명령이 주어지면 오케스트레이터(Orchestrator)는 유지된 라이브러리에서 가장 관련성 높은 도구 및 스킬 하위 집합을 선택하고, 고정된 하위 에이전트(Sub-Agent)가 이를 사용하여 추론 체인을 구성하여 선호도 판단을 생성한다. 예측된 판단과 실제 선호도를 비교하고 추론 과정의 성공 및 실패를 분석함으로써, 오케스트레이터는 추가적인 인간 주석 없이 자동으로 도구 및 스킬 라이브러리를 개선한다. RewardHarness는 EditReward 선호도 데이터의 0.05%만을 사용하여 이미지 편집 평가 벤치마크에서 평균 정확도 47.4%를 달성하였으며, 이는 GPT-5를 5.3포인트 상회하는 성능이다. GRPO 미세 조정을 위한 보상 신호로 사용될 경우, RL 기반 튜닝 모델은 ImgEdit-Bench에서 3.52를 달성하였다. 프로젝트 페이지: https://rewardharness.com.
English
Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.