Algemeen redeneren versterken zonder verificatoren

Samenvatting

De recente paradigmaverschuiving naar het trainen van grote taalmodelen (LLMs) met behulp van DeepSeek-R1-Zero-stijl reinforcement learning (RL) op verifieerbare beloningen heeft indrukwekkende vooruitgang geboekt in code- en wiskundig redeneren. Deze methodologie is echter beperkt tot taken waarbij op regels gebaseerde antwoordverificatie mogelijk is en breidt zich niet van nature uit naar real-world domeinen zoals chemie, gezondheidszorg, techniek, recht, biologie, bedrijfskunde en economie. Huidige praktische oplossingen gebruiken een extra LLM als modelgebaseerde verifier; dit introduceert echter problemen zoals afhankelijkheid van een sterke verifier-LLM, gevoeligheid voor reward hacking en de praktische last van het in het geheugen houden van het verifiermodel tijdens de training. Om dit aan te pakken en DeepSeek-R1-Zero-stijl training uit te breiden naar algemene redeneerdomeinen, stellen we een verifier-vrije methode (VeriFree) voor die antwoordverificatie omzeilt en in plaats daarvan RL gebruikt om direct de waarschijnlijkheid van het genereren van het referentieantwoord te maximaliseren. We vergelijken VeriFree met verifier-gebaseerde methoden en tonen aan dat, naast de aanzienlijke praktische voordelen en verminderde rekenvereisten, VeriFree verifier-gebaseerde methoden evenaart en zelfs overtreft in uitgebreide evaluaties over MMLU-Pro, GPQA, SuperGPQA en wiskundige benchmarks. Bovendien bieden we inzichten in deze methode vanuit meerdere perspectieven: als een elegante integratie van het trainen van zowel het beleid als de impliciete verifier in een verenigd model, en als een variatie-optimalisatiebenadering. Code is beschikbaar op https://github.com/sail-sg/VeriFree.

English

The recent paradigm shift towards training large language models (LLMs) using DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has led to impressive advancements in code and mathematical reasoning. However, this methodology is limited to tasks where rule-based answer verification is possible and does not naturally extend to real-world domains such as chemistry, healthcare, engineering, law, biology, business, and economics. Current practical workarounds use an additional LLM as a model-based verifier; however, this introduces issues such as reliance on a strong verifier LLM, susceptibility to reward hacking, and the practical burden of maintaining the verifier model in memory during training. To address this and extend DeepSeek-R1-Zero-style training to general reasoning domains, we propose a verifier-free method (VeriFree) that bypasses answer verification and instead uses RL to directly maximize the probability of generating the reference answer. We compare VeriFree with verifier-based methods and demonstrate that, in addition to its significant practical benefits and reduced compute requirements, VeriFree matches and even surpasses verifier-based methods on extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related benchmarks. Moreover, we provide insights into this method from multiple perspectives: as an elegant integration of training both the policy and implicit verifier in a unified model, and as a variational optimization approach. Code is available at https://github.com/sail-sg/VeriFree.

Algemeen redeneren versterken zonder verificatoren

Reinforcing General Reasoning without Verifiers

Samenvatting

Support