Algemeen redeneren versterken zonder verificatoren
Reinforcing General Reasoning without Verifiers
May 27, 2025
Auteurs: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Samenvatting
De recente paradigmaverschuiving naar het trainen van grote taalmodelen (LLMs) met behulp van DeepSeek-R1-Zero-stijl reinforcement learning (RL) op verifieerbare beloningen heeft indrukwekkende vooruitgang geboekt in code- en wiskundig redeneren. Deze methodologie is echter beperkt tot taken waarbij op regels gebaseerde antwoordverificatie mogelijk is en breidt zich niet van nature uit naar real-world domeinen zoals chemie, gezondheidszorg, techniek, recht, biologie, bedrijfskunde en economie. Huidige praktische oplossingen gebruiken een extra LLM als modelgebaseerde verifier; dit introduceert echter problemen zoals afhankelijkheid van een sterke verifier-LLM, gevoeligheid voor reward hacking en de praktische last van het in het geheugen houden van het verifiermodel tijdens de training. Om dit aan te pakken en DeepSeek-R1-Zero-stijl training uit te breiden naar algemene redeneerdomeinen, stellen we een verifier-vrije methode (VeriFree) voor die antwoordverificatie omzeilt en in plaats daarvan RL gebruikt om direct de waarschijnlijkheid van het genereren van het referentieantwoord te maximaliseren. We vergelijken VeriFree met verifier-gebaseerde methoden en tonen aan dat, naast de aanzienlijke praktische voordelen en verminderde rekenvereisten, VeriFree verifier-gebaseerde methoden evenaart en zelfs overtreft in uitgebreide evaluaties over MMLU-Pro, GPQA, SuperGPQA en wiskundige benchmarks. Bovendien bieden we inzichten in deze methode vanuit meerdere perspectieven: als een elegante integratie van het trainen van zowel het beleid als de impliciete verifier in een verenigd model, en als een variatie-optimalisatiebenadering. Code is beschikbaar op https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.