GRPO Consapevole del Ragionamento mediante Process Mining
Reasoning-Aware GRPO using Process Mining
October 29, 2025
Autori: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
Abstract
L'addestramento post-allenamento basato su apprendimento per rinforzo (RL) è stato cruciale per abilitare il ragionamento a più passi nei grandi modelli di ragionamento (LRM), tuttavia gli schemi di ricompensa attuali sono tipicamente incentrati sul risultato. Proponiamo PM4GRPO, un'ottimizzazione delle politiche relative di gruppo (GRPO) consapevole del processo di ragionamento, che integra le ricompense standard per risposta/formato con segnali relativi alla procedura di ragionamento. A tal fine, vengono utilizzate tecniche di process mining per calcolare una ricompensa scalare di conformità che misura quanto strettamente il ragionamento di un modello politico si allinei con il modello insegnante pre-addestrato. I risultati empirici su cinque benchmark dimostrano che PM4GRPO supera significativamente le metodologie esistenti per l'addestramento post-allenamento basato su GRPO. Questi risultati evidenziano come l'utilizzo del process mining per un GRPO consapevole del ragionamento migliori efficacemente le capacità di ragionamento dei modelli politici.
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.