ChatPaper.aiChatPaper

RewardHarness: Selbst-evolvierendes agentisches Post-Training

RewardHarness: Self-Evolving Agentic Post-Training

May 9, 2026
Autoren: Yuxuan Zhang, Penghui Du, Bo Li, Cong Wei, Junwen Miao, Huaisong Zhang, Songcheng Cai, Yubo Wang, Dongfu Jiang, Yuyu Zhang, Ping Nie, Wenhu Chen, Changqian Yu, Kelsey R. Allen
cs.AI

Zusammenfassung

Die Bewertung von instruktionsgesteuerten Bildbearbeitungen erfordert Belohnungen, die subtile menschliche Präferenzen widerspiegeln. Aktuelle Belohnungsmodelle sind jedoch typischerweise auf groß angelegte Präferenzannotationen und zusätzliches Modelltraining angewiesen. Dies führt zu einer Daten-Effizienzlücke: Menschen können die angestrebten Bewertungskriterien oft anhand weniger Beispiele ableiten, während Modelle üblicherweise mit Hunderttausenden von Vergleichen trainiert werden. Wir stellen RewardHarness vor, ein selbstevolvierendes agentisches Belohnungsframework, das die Modellierung von Belohnungen als Kontextevolution und nicht als Gewichtsoptimierung neu definiert. Anstatt aus groß angelegten Annotationen zu lernen, passt sich RewardHarness an menschliche Präferenzen an, indem es iterativ eine Bibliothek von Werkzeugen und Fähigkeiten aus nur 100 Präferenz-Demonstrationen weiterentwickelt. Gegeben ein Quellbild, bearbeitete Kandidatenbilder und eine Bearbeitungsanweisung wählt ein Orchestrator die relevanteste Teilmenge von Werkzeugen und Fähigkeiten aus der gepflegten Bibliothek aus, und ein eingefrorener Sub-Agent nutzt diese, um eine Argumentationskette zu konstruieren, die ein Präferenzurteil erzeugt. Durch den Vergleich vorhergesagter Urteile mit Ground-Truth-Präferenzen sowie die Analyse von Erfolgen und Misserfolgen im Argumentationsprozess verfeinert der Orchestrator automatisch seine Bibliothek von Werkzeugen und Fähigkeiten, ohne zusätzliche menschliche Annotationen. Unter Verwendung von nur 0,05 % der EditReward-Präferenzdaten erreicht RewardHarness eine durchschnittliche Genauigkeit von 47,4 % auf Bildbearbeitungs-Bewertungsbenchmarks und übertrifft GPT-5 um 5,3 Prozentpunkte. Wenn als Belohnungssignal für die GRPO-Feinabstimmung verwendet, erzielen RL-abgestimmte Modelle einen Wert von 3,52 auf dem ImgEdit-Bench. Projektseite: https://rewardharness.com.
English
Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.