Skill-RM: Unificando critérios de avaliação heterogêneos por meio de habilidade do agente

Resumo

Modelos de recompensa (RMs) fornecem sinais de feedback críticos para o pós-treinamento de LLMs, especialmente em pipelines de ajuste fino reforçado (RFT) e aprendizado por reforço (RL). No entanto, a avaliação atual de recompensa depende de critérios heterogêneos, como verificadores baseados em regras, referências de ground-truth, listas de verificação processuais e rubricas complexas, onde um mecanismo unificado para integrar todos os tipos de evidência permanece inexplorado. Para esse fim, propomos o Skill Reward Model (Skill-RM), uma estrutura unificada que reformula a modelagem de recompensa como a execução de uma Habilidade de Avaliação de Recompensa reutilizável. Ao tratar o cálculo da recompensa como uma tarefa agentiva estruturada, o Skill-RM fornece uma interface consistente para orquestrar recursos heterogêneos, selecionando e agregando dinamicamente evidências adaptadas aos requisitos específicos de cada entrada. Essa abordagem permite que o modelo de recompensa vá além da avaliação estática, garantindo consistência e transparência em diversas tarefas. Experimentos extensivos em benchmarks de recompensa e aplicações downstream, incluindo seleção best-of-N e aprendizado por reforço, demonstram que o Skill-RM supera consistentemente as linhas de base tradicionais de julgamento. Nossos achados sugerem que o Skill-RM não apenas fornece uma solução unificada para a modelagem de recompensa, mas também alcança desempenho superior por meio da orquestração estratégica e dinâmica de evidências. O código está em https://github.com/Qwen-Applications/Skill-RM.

English

Reward models (RMs) provide critical feedback signals for LLM post-training, notably in reinforced fine-tuning (RFT) and reinforcement learning (RL) pipelines. However, current reward evaluation relies on heterogeneous criteria such as rule-based verifiers, ground-truth references, procedural checklists, and complex rubrics, where a unified mechanism to integrate all types of evidence remains unexplored. To this end, we propose Skill Reward Model (Skill-RM), a unified framework that reformulates reward modeling as the execution of a reusable Reward-Evaluation Skill. By treating reward computation as a structured agentic task, Skill-RM provides a consistent interface to orchestrate heterogeneous resources, dynamically selecting and aggregating evidence tailored to the specific requirements of each input. This approach enables the reward model to move beyond static evaluation, ensuring consistency and transparency across diverse tasks. Extensive experiments on reward benchmarks and downstream applications, including best-of-N selection and reinforcement learning, demonstrate that Skill-RM consistently outperforms traditional judge baselines. Our findings suggest that Skill-RM not only provides a unified solution for reward modeling but also achieves superior performance through the strategic and dynamic orchestration of evidence. The code is at https://github.com/Qwen-Applications/Skill-RM.