Redeneergericht GRPO met behulp van Process Mining
Reasoning-Aware GRPO using Process Mining
October 29, 2025
Auteurs: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
Samenvatting
Op reinforcement learning (RL) gebaseerde naftraining is cruciaal geweest voor het mogelijk maken van meerstaps redeneren in grote redeneermodellen (LRM's), maar de huidige beloningsschema's zijn doorgaans resultaatgericht. Wij stellen PM4GRPO voor, een redeneringsbewuste Group Relative Policy Optimization (GRPO) die standaard antwoord-/opmaakbeloningen aanvult met signalen over het redeneerproces. Hiertoe worden procesminingtechnieken gebruikt om een scalaire conformiteitsbeloning te berekenen die meet hoe nauw de redenering van een beleidsmodel aansluit bij het voorgetrainde leraarmodel. De empirische resultaten op vijf benchmarks tonen aan dat PM4GRPO aanzienlijk beter presteert dan bestaande methodologieën voor GRPO-gebaseerde naftraining. Deze resultaten benadrukken dat het gebruik van procesmining voor redeneringsbewuste GRPO de redeneervermogens van beleidsmodellen effectief verbetert.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.