Skill-RM: Unificando Criterios de Evaluación Heterogéneos mediante la Habilidad del Agente

Resumen

Los modelos de recompensa (RM) proporcionan señales críticas de retroalimentación para el post-entrenamiento de LLM, especialmente en los pipelines de ajuste fino reforzado (RFT) y aprendizaje por refuerzo (RL). Sin embargo, la evaluación actual de recompensas se basa en criterios heterogéneos como verificadores basados en reglas, referencias de verdad fundamental, listas de verificación procedimentales y rúbricas complejas, donde un mecanismo unificado para integrar todos los tipos de evidencia permanece inexplorado. Con este fin, proponemos el Modelo de Recompensa basado en Habilidades (Skill-RM), un marco unificado que reformula el modelado de recompensas como la ejecución de una Habilidad de Evaluación de Recompensas reutilizable. Al tratar el cálculo de recompensas como una tarea agéntica estructurada, Skill-RM proporciona una interfaz consistente para orquestar recursos heterogéneos, seleccionando y agregando dinámicamente la evidencia adaptada a los requisitos específicos de cada entrada. Este enfoque permite que el modelo de recompensa supere la evaluación estática, asegurando consistencia y transparencia a través de diversas tareas. Experimentos exhaustivos en puntos de referencia de recompensas y aplicaciones posteriores, incluyendo selección best-of-N y aprendizaje por refuerzo, demuestran que Skill-RM supera consistentemente a las líneas base tradicionales de jueces. Nuestros hallazgos sugieren que Skill-RM no solo proporciona una solución unificada para el modelado de recompensas, sino que también logra un rendimiento superior mediante la orquestación estratégica y dinámica de la evidencia. El código está disponible en https://github.com/Qwen-Applications/Skill-RM.

English

Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidence remains unexplored. To this end, we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill. By treating reward computation as a structured agentic task, Skill-RM provides a consistent interface to orchestrate heterogeneous resources, dynamically selecting and aggregating evidence tailored to the specific requirements of each input. This approach enables the reward model to move beyond static evaluation, ensuring consistency and transparency across diverse tasks. Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines. Our findings suggest that Skill-RM not only provides a unified solution for reward modeling but also achieves superior performance through the strategic and dynamic orchestration of evidence. The code is at https://github.com/Qwen-Applications/Skill-RM.