Rafforzare il ragionamento generale senza verificatori
Reinforcing General Reasoning without Verifiers
May 27, 2025
Autori: Xiangxin Zhou, Zichen Liu, Anya Sims, Haonan Wang, Tianyu Pang, Chongxuan Li, Liang Wang, Min Lin, Chao Du
cs.AI
Abstract
Il recente cambio di paradigma verso l'addestramento di grandi modelli linguistici (LLM) utilizzando l'apprendimento per rinforzo (RL) in stile DeepSeek-R1-Zero su ricompense verificabili ha portato a impressionanti progressi nel ragionamento matematico e nella programmazione. Tuttavia, questa metodologia è limitata a compiti in cui è possibile una verifica delle risposte basata su regole e non si estende naturalmente a domini del mondo reale come la chimica, la sanità, l'ingegneria, il diritto, la biologia, gli affari e l'economia. Le attuali soluzioni pratiche utilizzano un LLM aggiuntivo come verificatore basato su modello; tuttavia, ciò introduce problemi come la dipendenza da un LLM verificatore potente, la suscettibilità all'hacking delle ricompense e l'onere pratico di mantenere il modello verificatore in memoria durante l'addestramento. Per affrontare questo problema ed estendere l'addestramento in stile DeepSeek-R1-Zero a domini di ragionamento generale, proponiamo un metodo senza verificatore (VeriFree) che bypassa la verifica delle risposte e utilizza invece l'RL per massimizzare direttamente la probabilità di generare la risposta di riferimento. Confrontiamo VeriFree con metodi basati su verificatore e dimostriamo che, oltre ai suoi significativi vantaggi pratici e ai ridotti requisiti computazionali, VeriFree eguaglia e persino supera i metodi basati su verificatore in valutazioni estese su MMLU-Pro, GPQA, SuperGPQA e benchmark relativi alla matematica. Inoltre, forniamo approfondimenti su questo metodo da molteplici prospettive: come un'elegante integrazione dell'addestramento sia della politica che del verificatore implicito in un unico modello, e come un approccio di ottimizzazione variazionale. Il codice è disponibile all'indirizzo https://github.com/sail-sg/VeriFree.
English
The recent paradigm shift towards training large language models (LLMs) using
DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has
led to impressive advancements in code and mathematical reasoning. However,
this methodology is limited to tasks where rule-based answer verification is
possible and does not naturally extend to real-world domains such as chemistry,
healthcare, engineering, law, biology, business, and economics. Current
practical workarounds use an additional LLM as a model-based verifier; however,
this introduces issues such as reliance on a strong verifier LLM,
susceptibility to reward hacking, and the practical burden of maintaining the
verifier model in memory during training. To address this and extend
DeepSeek-R1-Zero-style training to general reasoning domains, we propose a
verifier-free method (VeriFree) that bypasses answer verification and instead
uses RL to directly maximize the probability of generating the reference
answer. We compare VeriFree with verifier-based methods and demonstrate that,
in addition to its significant practical benefits and reduced compute
requirements, VeriFree matches and even surpasses verifier-based methods on
extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related
benchmarks. Moreover, we provide insights into this method from multiple
perspectives: as an elegant integration of training both the policy and
implicit verifier in a unified model, and as a variational optimization
approach. Code is available at https://github.com/sail-sg/VeriFree.