Reforçando o Raciocínio Geral sem Verificadores
Reinforcing General Reasoning without Verifiers
May 27, 2025
Autores: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Resumo
A recente mudança de paradigma em direção ao treinamento de grandes modelos de linguagem (LLMs) utilizando aprendizado por reforço (RL) no estilo DeepSeek-R1-Zero com recompensas verificáveis tem levado a avanços impressionantes no raciocínio matemático e de código. No entanto, essa metodologia é limitada a tarefas onde a verificação de respostas baseada em regras é possível e não se estende naturalmente a domínios do mundo real, como química, saúde, engenharia, direito, biologia, negócios e economia. As soluções práticas atuais utilizam um LLM adicional como verificador baseado em modelo; no entanto, isso introduz problemas como a dependência de um LLM verificador forte, suscetibilidade a manipulação de recompensas e o ônus prático de manter o modelo verificador na memória durante o treinamento. Para abordar isso e estender o treinamento no estilo DeepSeek-R1-Zero a domínios de raciocínio geral, propomos um método sem verificador (VeriFree) que ignora a verificação de respostas e, em vez disso, usa RL para maximizar diretamente a probabilidade de gerar a resposta de referência. Comparamos o VeriFree com métodos baseados em verificador e demonstramos que, além de seus benefícios práticos significativos e requisitos computacionais reduzidos, o VeriFree iguala e até supera métodos baseados em verificador em avaliações extensas em MMLU-Pro, GPQA, SuperGPQA e benchmarks relacionados a matemática. Além disso, fornecemos insights sobre esse método a partir de múltiplas perspectivas: como uma integração elegante do treinamento tanto da política quanto do verificador implícito em um modelo unificado, e como uma abordagem de otimização variacional. O código está disponível em https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.