Redeneergericht GRPO met behulp van Process Mining

Samenvatting

Op reinforcement learning (RL) gebaseerde naftraining is cruciaal geweest voor het mogelijk maken van meerstaps redeneren in grote redeneermodellen (LRM's), maar de huidige beloningsschema's zijn doorgaans resultaatgericht. Wij stellen PM4GRPO voor, een redeneringsbewuste Group Relative Policy Optimization (GRPO) die standaard antwoord-/opmaakbeloningen aanvult met signalen over het redeneerproces. Hiertoe worden procesminingtechnieken gebruikt om een scalaire conformiteitsbeloning te berekenen die meet hoe nauw de redenering van een beleidsmodel aansluit bij het voorgetrainde leraarmodel. De empirische resultaten op vijf benchmarks tonen aan dat PM4GRPO aanzienlijk beter presteert dan bestaande methodologieën voor GRPO-gebaseerde naftraining. Deze resultaten benadrukken dat het gebruik van procesmining voor redeneringsbewuste GRPO de redeneervermogens van beleidsmodellen effectief verbetert.

English

Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.

Redeneergericht GRPO met behulp van Process Mining

Reasoning-Aware GRPO using Process Mining

Samenvatting

Support