ChatPaper.aiChatPaper

StepWiser: Stapsgewijze Generatieve Beoordelaars voor Wijsere Redenering

StepWiser: Stepwise Generative Judges for Wiser Reasoning

August 26, 2025
Auteurs: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar
cs.AI

Samenvatting

Naarmate modellen steeds vaker gebruikmaken van meerstaps redeneerstrategieën om complexe problemen op te lossen, is het toezicht houden op de logische geldigheid van deze tussenstappen een cruciaal onderzoeksuitdaging geworden. Procesbeloningsmodellen pakken dit aan door stap-voor-stap feedback te geven, maar huidige benaderingen hebben twee belangrijke nadelen: ze functioneren meestal als classificatoren zonder uitleg te bieden, en hun afhankelijkheid van supervised fine-tuning met statische datasets beperkt de generalisatie. Geïnspireerd door recente ontwikkelingen, herformuleren we stapgewijze beloningsmodellering van een classificatietaak naar een redeneertaak zelf. We stellen daarom een generatieve beoordelaar voor die redeneert over de redeneerstappen van het beleidsmodel (d.w.z., meta-redeneert), denktokens uitvoert voordat een definitief oordeel wordt gegeven. Ons model, StepWiser, wordt getraind door reinforcement learning met behulp van relatieve uitkomsten van rollouts. We laten zien dat het (i) betere beoordelingsnauwkeurigheid biedt voor tussenstappen dan bestaande methoden; (ii) kan worden gebruikt om het beleidsmodel tijdens de training te verbeteren; en (iii) de zoektocht tijdens de inferentie verbetert.
English
As models increasingly leverage multi-step reasoning strategies to solve complex problems, supervising the logical validity of these intermediate steps has become a critical research challenge. Process reward models address this by providing step-by-step feedback, but current approaches have two major drawbacks: they typically function as classifiers without providing explanations, and their reliance on supervised fine-tuning with static datasets limits generalization. Inspired by recent advances, we reframe stepwise reward modeling from a classification task to a reasoning task itself. We thus propose a generative judge that reasons about the policy model's reasoning steps (i.e., meta-reasons), outputting thinking tokens before delivering a final verdict. Our model, StepWiser, is trained by reinforcement learning using relative outcomes of rollouts. We show it provides (i) better judgment accuracy on intermediate steps than existing methods; (ii) can be used to improve the policy model at training time; and (iii) improves inference-time search.
PDF202August 28, 2025