ChatPaper.aiChatPaper

NOVER: Incentivetraining voor Taalmodellen via Verifier-Vrije Versterkingsleren

NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning

May 21, 2025
Auteurs: Wei Liu, Siya Qi, Xinyu Wang, Chen Qian, Yali Du, Yulan He
cs.AI

Samenvatting

Recente ontwikkelingen zoals DeepSeek R1-Zero benadrukken de effectiviteit van incentive training, een reinforcement learning-paradigma dat beloningen berekent uitsluitend op basis van het eindantwoordgedeelte van de uitvoer van een taalmodel, waardoor de generatie van tussenliggende redeneerstappen wordt gestimuleerd. Deze methoden zijn echter fundamenteel afhankelijk van externe verifiers, wat hun toepasbaarheid beperkt tot domeinen zoals wiskunde en programmeren, waar dergelijke verifiers gemakkelijk beschikbaar zijn. Hoewel beloningsmodellen als verifiers kunnen dienen, vereisen ze hoogwaardige geannoteerde data en zijn ze kostbaar om te trainen. In dit werk stellen we NOVER voor, NO-VERifier Reinforcement Learning, een algemeen reinforcement learning- raamwerk dat alleen standaard supervised fine-tuning data vereist zonder de noodzaak van een externe verifier. NOVER maakt incentive training mogelijk voor een breed scala aan tekst-naar-tekst taken en overtreft het model van dezelfde grootte dat is gedistilleerd uit grote redeneermodellen zoals DeepSeek R1 671B met 7,7 procent. Bovendien maakt de flexibiliteit van NOVER nieuwe mogelijkheden mogelijk voor het optimaliseren van grote taalmodellen, zoals inverse incentive training.
English
Recent advances such as DeepSeek R1-Zero highlight the effectiveness of incentive training, a reinforcement learning paradigm that computes rewards solely based on the final answer part of a language model's output, thereby encouraging the generation of intermediate reasoning steps. However, these methods fundamentally rely on external verifiers, which limits their applicability to domains like mathematics and coding where such verifiers are readily available. Although reward models can serve as verifiers, they require high-quality annotated data and are costly to train. In this work, we propose NOVER, NO-VERifier Reinforcement Learning, a general reinforcement learning framework that requires only standard supervised fine-tuning data with no need for an external verifier. NOVER enables incentive training across a wide range of text-to-text tasks and outperforms the model of the same size distilled from large reasoning models such as DeepSeek R1 671B by 7.7 percent. Moreover, the flexibility of NOVER enables new possibilities for optimizing large language models, such as inverse incentive training.
PDF35May 26, 2025