Armadilhas dos Verificadores Baseados em Regras e Modelos - Um Estudo de Caso sobre Raciocínio Matemático
Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning
May 28, 2025
Autores: Yuzhen Huang, Weihao Zeng, Xingshan Zeng, Qi Zhu, Junxian He
cs.AI
Resumo
Verificadores confiáveis são essenciais para o sucesso do aprendizado por reforço com recompensa verificável (RLVR), que é a metodologia central por trás de vários modelos de raciocínio em larga escala, como o DeepSeek-R1. Em domínios complexos como o raciocínio matemático, verificadores baseados em regras têm sido amplamente adotados em trabalhos anteriores para treinar modelos de raciocínio robustos. No entanto, a confiabilidade desses verificadores e seu impacto no processo de treinamento de RL permanecem pouco compreendidos. Neste trabalho, utilizamos o raciocínio matemático como estudo de caso e conduzimos uma análise abrangente de vários verificadores em cenários de avaliação estática e de treinamento de RL. Primeiramente, descobrimos que os verificadores baseados em regras de código aberto atuais frequentemente falham em reconhecer respostas equivalentes apresentadas em formatos diferentes em diversos conjuntos de dados matemáticos comumente utilizados, resultando em taxas de falsos negativos não negligenciáveis. Essa limitação afeta adversamente o desempenho do treinamento de RL e se torna mais pronunciada à medida que o modelo de política se torna mais forte. Posteriormente, investigamos verificadores baseados em modelos como uma solução potencial para abordar essas limitações. Embora a avaliação estática mostre que os verificadores baseados em modelos alcançam uma precisão de verificação significativamente maior, análises adicionais e resultados de treinamento de RL indicam que eles são altamente suscetíveis a ataques, onde classificam erroneamente certos padrões nas respostas como corretos (ou seja, falsos positivos). Essa vulnerabilidade é explorada durante a otimização do modelo de política, levando a recompensas artificialmente infladas. Nossas descobertas destacam os riscos únicos inerentes tanto aos verificadores baseados em regras quanto aos baseados em modelos, com o objetivo de oferecer insights valiosos para o desenvolvimento de sistemas de recompensa mais robustos no aprendizado por reforço.
English
Trustworthy verifiers are essential for the success of reinforcement learning
with verifiable reward (RLVR), which is the core methodology behind various
large reasoning models such as DeepSeek-R1. In complex domains like
mathematical reasoning, rule-based verifiers have been widely adopted in
previous works to train strong reasoning models. However, the reliability of
these verifiers and their impact on the RL training process remain poorly
understood. In this work, we take mathematical reasoning as a case study and
conduct a comprehensive analysis of various verifiers in both static evaluation
and RL training scenarios. First, we find that current open-source rule-based
verifiers often fail to recognize equivalent answers presented in different
formats across multiple commonly used mathematical datasets, resulting in
non-negligible false negative rates. This limitation adversely affects RL
training performance and becomes more pronounced as the policy model gets
stronger. Subsequently, we investigate model-based verifiers as a potential
solution to address these limitations. While the static evaluation shows that
model-based verifiers achieve significantly higher verification accuracy,
further analysis and RL training results imply that they are highly susceptible
to hacking, where they misclassify certain patterns in responses as correct
(i.e., false positives). This vulnerability is exploited during policy model
optimization, leading to artificially inflated rewards. Our findings underscore
the unique risks inherent to both rule-based and model-based verifiers, aiming
to offer valuable insights to develop more robust reward systems in
reinforcement learning.