ChatPaper.aiChatPaper

Armadilhas dos Verificadores Baseados em Regras e Modelos - Um Estudo de Caso sobre Raciocínio Matemático

Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning

May 28, 2025
Autores: Yuzhen Huang, Weihao Zeng, Xingshan Zeng, Qi Zhu, Junxian He
cs.AI

Resumo

Verificadores confiáveis são essenciais para o sucesso do aprendizado por reforço com recompensa verificável (RLVR), que é a metodologia central por trás de vários modelos de raciocínio em larga escala, como o DeepSeek-R1. Em domínios complexos como o raciocínio matemático, verificadores baseados em regras têm sido amplamente adotados em trabalhos anteriores para treinar modelos de raciocínio robustos. No entanto, a confiabilidade desses verificadores e seu impacto no processo de treinamento de RL permanecem pouco compreendidos. Neste trabalho, utilizamos o raciocínio matemático como estudo de caso e conduzimos uma análise abrangente de vários verificadores em cenários de avaliação estática e de treinamento de RL. Primeiramente, descobrimos que os verificadores baseados em regras de código aberto atuais frequentemente falham em reconhecer respostas equivalentes apresentadas em formatos diferentes em diversos conjuntos de dados matemáticos comumente utilizados, resultando em taxas de falsos negativos não negligenciáveis. Essa limitação afeta adversamente o desempenho do treinamento de RL e se torna mais pronunciada à medida que o modelo de política se torna mais forte. Posteriormente, investigamos verificadores baseados em modelos como uma solução potencial para abordar essas limitações. Embora a avaliação estática mostre que os verificadores baseados em modelos alcançam uma precisão de verificação significativamente maior, análises adicionais e resultados de treinamento de RL indicam que eles são altamente suscetíveis a ataques, onde classificam erroneamente certos padrões nas respostas como corretos (ou seja, falsos positivos). Essa vulnerabilidade é explorada durante a otimização do modelo de política, levando a recompensas artificialmente infladas. Nossas descobertas destacam os riscos únicos inerentes tanto aos verificadores baseados em regras quanto aos baseados em modelos, com o objetivo de oferecer insights valiosos para o desenvolvimento de sistemas de recompensa mais robustos no aprendizado por reforço.
English
Trustworthy verifiers are essential for the success of reinforcement learning with verifiable reward (RLVR), which is the core methodology behind various large reasoning models such as DeepSeek-R1. In complex domains like mathematical reasoning, rule-based verifiers have been widely adopted in previous works to train strong reasoning models. However, the reliability of these verifiers and their impact on the RL training process remain poorly understood. In this work, we take mathematical reasoning as a case study and conduct a comprehensive analysis of various verifiers in both static evaluation and RL training scenarios. First, we find that current open-source rule-based verifiers often fail to recognize equivalent answers presented in different formats across multiple commonly used mathematical datasets, resulting in non-negligible false negative rates. This limitation adversely affects RL training performance and becomes more pronounced as the policy model gets stronger. Subsequently, we investigate model-based verifiers as a potential solution to address these limitations. While the static evaluation shows that model-based verifiers achieve significantly higher verification accuracy, further analysis and RL training results imply that they are highly susceptible to hacking, where they misclassify certain patterns in responses as correct (i.e., false positives). This vulnerability is exploited during policy model optimization, leading to artificially inflated rewards. Our findings underscore the unique risks inherent to both rule-based and model-based verifiers, aiming to offer valuable insights to develop more robust reward systems in reinforcement learning.
PDF62May 29, 2025