StepWiser : Juges génératifs pas à pas pour un raisonnement plus avisé
StepWiser: Stepwise Generative Judges for Wiser Reasoning
August 26, 2025
papers.authors: Wei Xiong, Wenting Zhao, Weizhe Yuan, Olga Golovneva, Tong Zhang, Jason Weston, Sainbayar Sukhbaatar
cs.AI
papers.abstract
Alors que les modèles exploitent de plus en plus des stratégies de raisonnement multi-étapes pour résoudre des problèmes complexes, la supervision de la validité logique de ces étapes intermédiaires est devenue un défi de recherche crucial. Les modèles de récompense par processus abordent ce problème en fournissant un retour d'information étape par étape, mais les approches actuelles présentent deux inconvénients majeurs : elles fonctionnent généralement comme des classificateurs sans fournir d'explications, et leur dépendance à un ajustement fin supervisé avec des ensembles de données statiques limite la généralisation. Inspirés par les avancées récentes, nous reformulons la modélisation des récompenses étape par étape en passant d'une tâche de classification à une tâche de raisonnement en soi. Nous proposons ainsi un juge génératif qui raisonne sur les étapes de raisonnement du modèle de politique (c'est-à-dire, méta-raisonne), produisant des tokens de réflexion avant de rendre un verdict final. Notre modèle, StepWiser, est entraîné par apprentissage par renforcement en utilisant les résultats relatifs des déploiements. Nous montrons qu'il offre (i) une meilleure précision de jugement sur les étapes intermédiaires que les méthodes existantes ; (ii) peut être utilisé pour améliorer le modèle de politique pendant l'entraînement ; et (iii) améliore la recherche au moment de l'inférence.
English
As models increasingly leverage multi-step reasoning strategies to solve
complex problems, supervising the logical validity of these intermediate steps
has become a critical research challenge. Process reward models address this by
providing step-by-step feedback, but current approaches have two major
drawbacks: they typically function as classifiers without providing
explanations, and their reliance on supervised fine-tuning with static datasets
limits generalization. Inspired by recent advances, we reframe stepwise reward
modeling from a classification task to a reasoning task itself. We thus propose
a generative judge that reasons about the policy model's reasoning steps (i.e.,
meta-reasons), outputting thinking tokens before delivering a final verdict.
Our model, StepWiser, is trained by reinforcement learning using relative
outcomes of rollouts. We show it provides (i) better judgment accuracy on
intermediate steps than existing methods; (ii) can be used to improve the
policy model at training time; and (iii) improves inference-time search.