プロセスマイニングを用いた推論対応GRPO
Reasoning-Aware GRPO using Process Mining
October 29, 2025
著者: Taekhyun Park, Yongjae Lee, Hyerim Bae
cs.AI
要旨
強化学習(RL)に基づくポストトレーニングは、大規模推論モデル(LRM)における多段階推論の実現に不可欠であるが、現在の報酬設計は一般的に結果中心である。本論文では、推論を意識したグループ相対方策最適化(GRPO)であるPM4GRPOを提案する。これは標準的な回答/形式報酬に、推論プロセスに関する信号を追加するものである。この目的のために、プロセスマイニング技術を活用して、方策モデルの推論が事前学習された教師モデルにどれだけ密に沿っているかを測定するスカラー適合報酬を計算する。5つのベンチマークによる実証結果は、PM4GRPOがGRPOベースのポストトレーニングにおける既存手法を有意に上回ることを示している。これらの結果は、推論を意識したGRPOにプロセスマイニングを活用することが、方策モデルの推論能力を効果的に強化することを強調している。
English
Reinforcement learning (RL)-based post-training has been crucial for enabling
multi-step reasoning in large reasoning models (LRMs), yet current reward
schemes are typically outcome-centric. We propose PM4GRPO, a reasoning-aware
Group Relative Policy Optimization (GRPO) that augments standard answer/format
rewards with signals over the reasoning procedure. To this end, process mining
techniques are utilized to compute a scalar conformance reward that measures
how closely a policy model's reasoning aligns with the pretrained teacher
model. The empirical results on five benchmarks demonstrate that PM4GRPO
significantly outperforms existing methodologies for GRPO-based post-training.
These results highlight that leveraging process mining for reasoning-aware GRPO
effectively enhances the reasoning capabilities of policy models.