ChatPaper.aiChatPaper

StepWiser: Schrittweise generative Bewertungssysteme für weiseres Denken

StepWiser: Stepwise Generative Judges for Wiser Reasoning

August 26, 2025
papers.authors: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar
cs.AI

papers.abstract

Da Modelle zunehmend mehrstufige Denkstrategien nutzen, um komplexe Probleme zu lösen, ist die Überwachung der logischen Gültigkeit dieser Zwischenschritte zu einer zentralen Forschungsherausforderung geworden. Prozess-Belohnungsmodelle adressieren dies, indem sie schrittweise Rückmeldungen geben, doch aktuelle Ansätze weisen zwei wesentliche Schwächen auf: Sie fungieren typischerweise als Klassifikatoren, ohne Erklärungen zu liefern, und ihre Abhängigkeit von überwachtem Feinabstimmen mit statischen Datensätzen schränkt die Generalisierungsfähigkeit ein. Inspiriert von jüngsten Fortschritten, reformulieren wir die schrittweise Belohnungsmodellierung von einer Klassifikationsaufgabe zu einer Denkaufgabe selbst. Wir schlagen daher einen generativen Bewerter vor, der über die Denkschritte des Policy-Modells reflektiert (d.h. meta-reasoning betreibt), Denk-Tokens ausgibt, bevor er ein endgültiges Urteil fällt. Unser Modell, StepWiser, wird durch Reinforcement Learning unter Verwendung relativer Ergebnisse von Rollouts trainiert. Wir zeigen, dass es (i) eine bessere Urteilsgenauigkeit bei Zwischenschritten als bestehende Methoden bietet; (ii) zur Verbesserung des Policy-Modells während des Trainings eingesetzt werden kann; und (iii) die Suche zur Inferenzzeit verbessert.
English
As models increasingly leverage multi-step reasoning strategies to solve complex problems, supervising the logical validity of these intermediate steps has become a critical research challenge. Process reward models address this by providing step-by-step feedback, but current approaches have two major drawbacks: they typically function as classifiers without providing explanations, and their reliance on supervised fine-tuning with static datasets limits generalization. Inspired by recent advances, we reframe stepwise reward modeling from a classification task to a reasoning task itself. We thus propose a generative judge that reasons about the policy model's reasoning steps (i.e., meta-reasons), outputting thinking tokens before delivering a final verdict. Our model, StepWiser, is trained by reinforcement learning using relative outcomes of rollouts. We show it provides (i) better judgment accuracy on intermediate steps than existing methods; (ii) can be used to improve the policy model at training time; and (iii) improves inference-time search.
PDF162August 28, 2025