RewardHarness: Самоэволюционирующее агентное пост-обучение

Аннотация

Оценка изменений изображений на основе инструкций требует вознаграждений, отражающих тонкие человеческие предпочтения, однако современные модели вознаграждения обычно зависят от крупномасштабной аннотации предпочтений и дополнительного обучения модели. Это создает разрыв в эффективности использования данных: люди часто могут вывести целевые критерии оценки всего на нескольких примерах, в то время как модели обычно обучаются на сотнях тысяч сравнений. Мы представляем RewardHarness — саморазвивающуюся агентную систему вознаграждения, которая переопределяет моделирование вознаграждения как эволюцию контекста, а не оптимизацию весов. Вместо обучения на крупномасштабных аннотациях RewardHarness согласуется с человеческими предпочтениями путем итеративной эволюции библиотеки инструментов и навыков, используя всего от 100 демонстраций предпочтений. На основе исходного изображения, кандидатов на редактирование и инструкции по редактированию Оркестратор выбирает наиболее релевантный набор инструментов и навыков из поддерживаемой библиотеки, а замороженный Суб-агент использует их для построения цепочки рассуждений, формирующей суждение о предпочтении. Сравнивая предсказанные суждения с истинными предпочтениями и анализируя успехи и неудачи в процессе рассуждений, Оркестратор автоматически улучшает свою библиотеку инструментов и навыков без дополнительной человеческой аннотации. Используя только 0,05% данных о предпочтениях EditReward, RewardHarness достигает средней точности 47,4% на бенчмарках оценки редактирования изображений, превосходя GPT-5 на 5,3 пункта. При использовании в качестве сигнала вознаграждения для дообучения GRPO модели, настроенные с помощью RL, достигают оценки 3,52 на ImgEdit-Bench. Страница проекта: https://rewardharness.com.

English

Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.