NOVER: Addestramento Incentivato per Modelli Linguistici tramite Apprendimento per Rinforzo Senza Verificatore
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
May 21, 2025
Autori: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI
Abstract
I recenti progressi, come DeepSeek R1-Zero, evidenziano l'efficacia dell'incentive training, un paradigma di apprendimento per rinforzo che calcola le ricompense esclusivamente sulla base della parte finale della risposta generata da un modello linguistico, incoraggiando così la generazione di passaggi di ragionamento intermedi. Tuttavia, questi metodi si basano fondamentalmente su verificatori esterni, il che ne limita l'applicabilità a domini come la matematica e la programmazione, dove tali verificatori sono facilmente disponibili. Sebbene i modelli di ricompensa possano fungere da verificatori, richiedono dati annotati di alta qualità e sono costosi da addestrare. In questo lavoro, proponiamo NOVER, NO-VERifier Reinforcement Learning, un framework generale di apprendimento per rinforzo che richiede solo dati standard di fine-tuning supervisionato, senza la necessità di un verificatore esterno. NOVER consente l'incentive training su un'ampia gamma di attività di testo-to-text e supera del 7,7% il modello delle stesse dimensioni distillato da grandi modelli di ragionamento come DeepSeek R1 671B. Inoltre, la flessibilità di NOVER apre nuove possibilità per ottimizzare i grandi modelli linguistici, come l'incentive training inverso.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of
incentive training, a reinforcement learning paradigm that computes rewards
solely based on the final answer part of a language model's output, thereby
encouraging the generation of intermediate reasoning steps. However, these
methods fundamentally rely on external verifiers, which limits their
applicability to domains like mathematics and coding where such verifiers are
readily available. Although reward models can serve as verifiers, they require
high-quality annotated data and are costly to train. In this work, we propose
NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning
framework that requires only standard supervised fine-tuning data with no need
for an external verifier. NOVER enables incentive training across a wide range
of text-to-text tasks and outperforms the model of the same size distilled from
large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the
flexibility of NOVER enables new possibilities for optimizing large language
models, such as inverse incentive training.