Rafforzare il ragionamento generale senza verificatori

Abstract

Il recente cambio di paradigma verso l'addestramento di grandi modelli linguistici (LLM) utilizzando l'apprendimento per rinforzo (RL) in stile DeepSeek-R1-Zero su ricompense verificabili ha portato a impressionanti progressi nel ragionamento matematico e nella programmazione. Tuttavia, questa metodologia è limitata a compiti in cui è possibile una verifica delle risposte basata su regole e non si estende naturalmente a domini del mondo reale come la chimica, la sanità, l'ingegneria, il diritto, la biologia, gli affari e l'economia. Le attuali soluzioni pratiche utilizzano un LLM aggiuntivo come verificatore basato su modello; tuttavia, ciò introduce problemi come la dipendenza da un LLM verificatore potente, la suscettibilità all'hacking delle ricompense e l'onere pratico di mantenere il modello verificatore in memoria durante l'addestramento. Per affrontare questo problema ed estendere l'addestramento in stile DeepSeek-R1-Zero a domini di ragionamento generale, proponiamo un metodo senza verificatore (VeriFree) che bypassa la verifica delle risposte e utilizza invece l'RL per massimizzare direttamente la probabilità di generare la risposta di riferimento. Confrontiamo VeriFree con metodi basati su verificatore e dimostriamo che, oltre ai suoi significativi vantaggi pratici e ai ridotti requisiti computazionali, VeriFree eguaglia e persino supera i metodi basati su verificatore in valutazioni estese su MMLU-Pro, GPQA, SuperGPQA e benchmark relativi alla matematica. Inoltre, forniamo approfondimenti su questo metodo da molteplici prospettive: come un'elegante integrazione dell'addestramento sia della politica che del verificatore implicito in un unico modello, e come un approccio di ottimizzazione variazionale. Il codice è disponibile all'indirizzo https://github.com/sail-sg/VeriFree.

English

The recent paradigm shift towards training large language models (LLMs) using DeepSeek-R1-Zero-style reinforcement learning (RL) on verifiable rewards has led to impressive advancements in code and mathematical reasoning. However, this methodology is limited to tasks where rule-based answer verification is possible and does not naturally extend to real-world domains such as chemistry, healthcare, engineering, law, biology, business, and economics. Current practical workarounds use an additional LLM as a model-based verifier; however, this introduces issues such as reliance on a strong verifier LLM, susceptibility to reward hacking, and the practical burden of maintaining the verifier model in memory during training. To address this and extend DeepSeek-R1-Zero-style training to general reasoning domains, we propose a verifier-free method (VeriFree) that bypasses answer verification and instead uses RL to directly maximize the probability of generating the reference answer. We compare VeriFree with verifier-based methods and demonstrate that, in addition to its significant practical benefits and reduced compute requirements, VeriFree matches and even surpasses verifier-based methods on extensive evaluations across MMLU-Pro, GPQA, SuperGPQA, and math-related benchmarks. Moreover, we provide insights into this method from multiple perspectives: as an elegant integration of training both the policy and implicit verifier in a unified model, and as a variational optimization approach. Code is available at https://github.com/sail-sg/VeriFree.

Rafforzare il ragionamento generale senza verificatori

Reinforcing General Reasoning without Verifiers

Abstract

Support