GRPO Sensible au Raisonnement utilisant l'Exploration de Processus
Reasoning-Aware GRPO using Process Mining
October 29, 2025
papers.authors: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
papers.abstract
L'optimisation post-formation basée sur l'apprentissage par renforcement (RL) a été cruciale pour permettre le raisonnement à plusieurs étapes dans les grands modèles de raisonnement (LRM), mais les schémas de récompense actuels sont généralement centrés sur le résultat. Nous proposons PM4GRPO, une optimisation de politique relative par groupe (GRPO) consciente du raisonnement, qui augmente les récompenses standards de réponse/format avec des signaux sur la procédure de raisonnement. À cette fin, des techniques de process mining sont utilisées pour calculer une récompense de conformité scalaire qui mesure à quel point le raisonnement d'un modèle de politique s'aligne sur celui du modèle enseignant pré-entraîné. Les résultats empiriques sur cinq benchmarks démontrent que PM4GRPO surpasse significativement les méthodologies existantes pour l'optimisation post-formation basée sur GRPO. Ces résultats soulignent que l'exploitation du process mining pour une GRPO consciente du raisonnement améliore efficacement les capacités de raisonnement des modèles de politique.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.