NOVER: Incentivetraining voor Taalmodellen via Verifier-Vrije Versterkingsleren
NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning
May 21, 2025
Auteurs: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI
Samenvatting
Recente ontwikkelingen zoals DeepSeek R1-Zero benadrukken de effectiviteit van
incentive training, een reinforcement learning-paradigma dat beloningen berekent
uitsluitend op basis van het eindantwoordgedeelte van de uitvoer van een taalmodel, waardoor
de generatie van tussenliggende redeneerstappen wordt gestimuleerd. Deze methoden
zijn echter fundamenteel afhankelijk van externe verifiers, wat hun toepasbaarheid beperkt
tot domeinen zoals wiskunde en programmeren, waar dergelijke verifiers gemakkelijk
beschikbaar zijn. Hoewel beloningsmodellen als verifiers kunnen dienen, vereisen ze
hoogwaardige geannoteerde data en zijn ze kostbaar om te trainen. In dit werk stellen we
NOVER voor, NO-VERifier Reinforcement Learning, een algemeen reinforcement learning-
raamwerk dat alleen standaard supervised fine-tuning data vereist zonder de noodzaak
van een externe verifier. NOVER maakt incentive training mogelijk voor een breed scala
aan tekst-naar-tekst taken en overtreft het model van dezelfde grootte dat is gedistilleerd uit
grote redeneermodellen zoals DeepSeek R1 671B met 7,7 procent. Bovendien maakt de
flexibiliteit van NOVER nieuwe mogelijkheden mogelijk voor het optimaliseren van grote
taalmodellen, zoals inverse incentive training.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of
incentive training, a reinforcement learning paradigm that computes rewards
solely based on the final answer part of a language model's output, thereby
encouraging the generation of intermediate reasoning steps. However, these
methods fundamentally rely on external verifiers, which limits their
applicability to domains like mathematics and coding where such verifiers are
readily available. Although reward models can serve as verifiers, they require
high-quality annotated data and are costly to train. In this work, we propose
NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning
framework that requires only standard supervised fine-tuning data with no need
for an external verifier. NOVER enables incentive training across a wide range
of text-to-text tasks and outperforms the model of the same size distilled from
large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the
flexibility of NOVER enables new possibilities for optimizing large language
models, such as inverse incentive training.