GRPO Consapevole del Ragionamento mediante Process Mining

Abstract

L'addestramento post-allenamento basato su apprendimento per rinforzo (RL) è stato cruciale per abilitare il ragionamento a più passi nei grandi modelli di ragionamento (LRM), tuttavia gli schemi di ricompensa attuali sono tipicamente incentrati sul risultato. Proponiamo PM4GRPO, un'ottimizzazione delle politiche relative di gruppo (GRPO) consapevole del processo di ragionamento, che integra le ricompense standard per risposta/formato con segnali relativi alla procedura di ragionamento. A tal fine, vengono utilizzate tecniche di process mining per calcolare una ricompensa scalare di conformità che misura quanto strettamente il ragionamento di un modello politico si allinei con il modello insegnante pre-addestrato. I risultati empirici su cinque benchmark dimostrano che PM4GRPO supera significativamente le metodologie esistenti per l'addestramento post-allenamento basato su GRPO. Questi risultati evidenziano come l'utilizzo del process mining per un GRPO consapevole del ragionamento migliori efficacemente le capacità di ragionamento dei modelli politici.

English

Reinforcement learning (RL)-based post-training has been crucial for enabling multi-step reasoning in large reasoning models (LRMs), yet current reward schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware Group Relative Policy Optimization (GRPO) that augments standard answer/format rewards with signals over the reasoning procedure. To this end, process mining techniques are utilized to compute a scalar conformance reward that measures how closely a policy model's reasoning aligns with the pretrained teacher model. The empirical results on five benchmarks demonstrate that PM4GRPO significantly outperforms existing methodologies for GRPO-based post-training. These results highlight that leveraging process mining for reasoning-aware GRPO effectively enhances the reasoning capabilities of policy models.

GRPO Consapevole del Ragionamento mediante Process Mining

Reasoning-Aware GRPO using Process Mining

Abstract

Support