RewardHarness: Post-entrenamiento Autoevolutivo Basado en Agentes

Resumen

Evaluar ediciones de imágenes guiadas por instrucciones requiere recompensas que reflejen preferencias humanas sutiles, sin embargo, los modelos de recompensa actuales suelen depender de anotaciones de preferencia a gran escala y entrenamiento adicional de modelos. Esto crea una brecha de eficiencia de datos: los humanos a menudo pueden inferir los criterios de evaluación objetivo a partir de solo unos pocos ejemplos, mientras que los modelos se entrenan típicamente con cientos de miles de comparaciones. Presentamos RewardHarness, un marco de recompensa agentivo auto-evolutivo que replantea el modelado de recompensas como evolución del contexto, en lugar de optimización de pesos. En lugar de aprender de anotaciones a gran escala, RewardHarness se alinea con las preferencias humanas evolucionando iterativamente una biblioteca de herramientas y habilidades a partir de tan solo 100 demostraciones de preferencia. Dada una imagen fuente, imágenes editadas candidatas y una instrucción de edición, un Orquestador selecciona el subconjunto de herramientas y habilidades más relevante de la biblioteca mantenida, y un Subagente congelado las utiliza para construir una cadena de razonamiento que produce un juicio de preferencia. Al comparar los juicios predichos con las preferencias reales y analizar los éxitos y fracasos en el proceso de razonamiento, el Orquestador refina automáticamente su biblioteca de herramientas y habilidades sin necesidad de anotaciones humanas adicionales. Utilizando solo el 0,05% de los datos de preferencia de EditReward, RewardHarness alcanza un 47,4% de precisión promedio en puntos de referencia de evaluación de edición de imágenes, superando a GPT-5 en 5,3 puntos. Cuando se utiliza como señal de recompensa para el ajuste fino con GRPO, los modelos ajustados con RL obtienen un 3,52 en ImgEdit-Bench. Página del proyecto: https://rewardharness.com.

English

Evaluating instruction-guided image edits requires rewards that reflect subtle human preferences, yet current reward models typically depend on large-scale preference annotation and additional model training. This creates a data-efficiency gap: humans can often infer the target evaluation criteria from only a few examples, while models are usually trained on hundreds of thousands of comparisons. We present RewardHarness, a self-evolving agentic reward framework that reframes reward modeling as context evolution rather than weight optimization. Instead of learning from large-scale annotations, RewardHarness aligns with human preferences by iteratively evolving a library of tools and skills from as few as 100 preference demonstrations. Given a source image, candidate edited images, and an editing instruction, an Orchestrator selects the most relevant subset of tools and skills from the maintained library, and a frozen Sub-Agent uses them to construct a reasoning chain that produces a preference judgment. By comparing predicted judgments with ground-truth preferences and analyzing successes and failures in the reasoning process, the Orchestrator automatically refines its library of tools and skills without additional human annotation. Using only 0.05% of the EditReward preference data, RewardHarness achieves 47.4% average accuracy on image-editing evaluation benchmarks, surpassing GPT-5 by 5.3 points. When used as a reward signal for GRPO fine-tuning, RL-tuned models achieve 3.52 on ImgEdit-Bench. Project page: https://rewardharness.com.