ChatPaper.aiChatPaper

RewardHarness: Самоэволюционирующее агентное пост-обучение

RewardHarness: Self-Evolving Agentic Post-Training

May 9, 2026
Авторы: Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen
cs.AI

Аннотация

Оценка изменений изображений на основе инструкций требует вознаграждений, отражающих тонкие человеческие предпочтения, однако современные модели вознаграждения обычно зависят от крупномасштабной аннотации предпочтений и дополнительного обучения модели. Это создает разрыв в эффективности использования данных: люди часто могут вывести целевые критерии оценки всего на нескольких примерах, в то время как модели обычно обучаются на сотнях тысяч сравнений. Мы представляем RewardHarness — саморазвивающуюся агентную систему вознаграждения, которая переопределяет моделирование вознаграждения как эволюцию контекста, а не оптимизацию весов. Вместо обучения на крупномасштабных аннотациях RewardHarness согласуется с человеческими предпочтениями путем итеративной эволюции библиотеки инструментов и навыков, используя всего от 100 демонстраций предпочтений. На основе исходного изображения, кандидатов на редактирование и инструкции по редактированию Оркестратор выбирает наиболее релевантный набор инструментов и навыков из поддерживаемой библиотеки, а замороженный Суб-агент использует их для построения цепочки рассуждений, формирующей суждение о предпочтении. Сравнивая предсказанные суждения с истинными предпочтениями и анализируя успехи и неудачи в процессе рассуждений, Оркестратор автоматически улучшает свою библиотеку инструментов и навыков без дополнительной человеческой аннотации. Используя только 0,05% данных о предпочтениях EditReward, RewardHarness достигает средней точности 47,4% на бенчмарках оценки редактирования изображений, превосходя GPT-5 на 5,3 пункта. При использовании в качестве сигнала вознаграждения для дообучения GRPO модели, настроенные с помощью RL, достигают оценки 3,52 на ImgEdit-Bench. Страница проекта: https://rewardharness.com.
English
Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.